Regressione Lineare
La Regressione Lineare (LR) è una tecnica statistica che viene
utilizzata per studiare la relazione tra due o più variabili
quantitative. Il modello di regressione lineare assume che la variabile
dipendente, che si desidera predire, sia una funzione lineare delle
variabili indipendenti.
Il modello di regressione lineare fa le seguenti assunzioni:
- Linearità: La relazione tra la variabile dipendente
e le variabili indipendenti è lineare.
- Normalità: I residui sono distribuiti
normalmente.
- Indipendenza: I residui sono indipendenti tra
loro.
- Eteroschedasticità: La varianza dei residui è
costante.
L’equazione del modello di regressione lineare semplice è la
seguente:
\[ y = a + bx \]
dove:
- y è la variabile dipendente
- a è l’intercetta
- b è il coefficiente angolare
- x è la variabile indipendente
L’intercetta rappresenta il valore medio di y quando x è uguale a 0.
Il coefficiente angolare rappresenta la variazione di y per ogni unità
di variazione di x.
Analisi dei residui
Serve a verificare se il modello soddisfa le assunzioni della
regressione e per identificare eventuali pattern o problemi nei
dati.
Esempio 1:
# Generiamo dati casuali con residui normalmente distribuiti
set.seed(123)
x <- 1:100
y <- 2 * x + rnorm(100)
# Adattiamo un modello di regressione
model <- lm(y ~ x)
# Effettuiamo l'analisi dei residui
Residuals <- residuals(model)
# Creiamo un grafico dei residui
plot(x, Residuals, main = "Distribuzione Normale dei Residui",xlab = "X", ylab = "Residui")
abline(h = 0, col = "red")

In questo caso, i residui seguono una distribuzione normale, il che è
un risultato ideale per un modello di regressione lineare. Quando
diciamo che i residui hanno una distribuzione normale, significa che i
residui seguono una distribuzione a forma di campana, con una media di
zero e una varianza costante. Questa è un’importante assunzione nei
modelli di regressione lineare, in quanto indica che gli errori casuali
nel modello sono distribuiti in modo simmetrico intorno a zero e non
mostrano alcun tipo di tendenza sistemica. Se questa assunzione è
soddisfatta, i test di significatività dei coefficienti del modello e le
stime di intervallo di confidenza saranno affidabili.
Esempio 2:
# Generiamo dati casuali con residui che seguono una distribuzione a U
set.seed(456)
x <- 1:100
y <- 2 * x^2 + rnorm(100)
y[50:60] <- y[50:60] + 10 # Introduciamo un effetto a U nei dati
# Adattiamo un modello di regressione
model <- lm(y ~ x)
# Effettuiamo l'analisi dei residui
residuals <- residuals(model)
# Creiamo un grafico dei residui
plot(x, residuals, main = "Distribuzione a U dei Residui", xlab = "X", ylab = "Residui")
abline(h = 0, col = "red")

In questo caso, i residui mostrano un effetto a U, indicando una
violazione dell’assunzione di omoschedasticità(i residui non mostrano un
aumento o una diminuzione sistematica nella dispersione al variare dei
valori delle variabili indipendenti).
Esempio 3:
# Generiamo dati casuali con outlier nei residui
set.seed(789)
x <- 1:100
y <- 2 * x + rnorm(100)
y[c(20, 85)] <- y[c(20, 85)] + 20 # Aggiungiamo outlier nei dati
# Adattiamo un modello di regressione
model <- lm(y ~ x)
# Effettuiamo l'analisi dei residui
residuals <- residuals(model)
# Creiamo un grafico dei residui
plot(x, residuals, main = "Presenza di Outlier nei Residui", ylab = "Residui", xlab = "X")
abline(h = 0, col = "red")

In questo caso, i residui mostrano la presenza di outlier evidenti,
che possono influenzare in modo significativo la stima dei coefficienti
del modello. Gli outlier possono comportare problemi nei modelli
statistici, specialmente nei modelli di regressione, perché possono
influenzare notevolmente i risultati. Ad esempio, possono influenzare la
stima dei coefficienti del modello e rendere il modello meno
affidabile.
[Torna all’ Indice]
Scomposizione Somma Di Quadrati
La “decomposition of sum of squares” è un concetto fondamentale
nell’analisi della varianza (ANOVA) e nella regressione statistica.
Questa tecnica aiuta a scomporre la varianza totale osservata in un
insieme di dati in diverse componenti, consentendo di comprendere quanto
della varianza può essere attribuito a vari fattori o errori residui. La
formula chiave in questo contesto è:
\[ Varianza Totale = Varianza Spiegata +
Varianza Residua \]
Dove:
Varianza Totale è la varianza complessiva dei dati, cioè quanto i
dati variano in generale.
Varianza Spiegata rappresenta la varianza dovuta al modello o ai
fattori esaminati (spiegati dalla variabile indipendente nel contesto
della regressione).
Varianza Residua è la varianza non spiegata dal modello o dai
fattori ed è associata all’errore residuo, ovvero la differenza tra i
valori osservati e quelli previsti dal modello.
Nel contesto della regressione, puoi rappresentare la decomposizione
della somma dei quadrati come segue:
\[ SST = SSR + SSE \]
SST (Sum of Squares Total) rappresenta la somma dei quadrati
totale ed è la varianza dei dati osservati rispetto alla loro
media.
SSR (Sum of Squares Regression) rappresenta la varianza spiegata
dal modello o dalla variabile indipendente.
SSE (Sum of Squares Error) rappresenta la varianza residua, ossia
la varianza non spiegata dal modello.
Per valutare l’efficienza del tuo modello di regressione, dovresti
guardare la proporzione di questa varianza spiegata dal tuo modello
(SSR). In generale, vuoi massimizzare la proporzione spiegata e
minimizzare la proporzione non spiegata (SSE). Pertanto, punti a
minimizzare SSE.
data <- data.frame(X = c(1, 2, 3, 4, 5), Y = c(3, 5, 6, 8, 10))
mean_Y <- mean(data$Y)
SST <- sum((data$Y - mean_Y)^2)
# Adatta il modello di regressione lineare
model <- lm(Y ~ X, data = data)
# Calcola la SSR
SSR <- sum((predict(model) - mean_Y)^2)
# Calcola la SSE
SSE <- sum(model$residuals^2)
R_squared <- SSR / SST
# Equivale a fare summary(model)
R_squared
[1] 0.989726
[Torna all’ Indice]
Predizione Ottimale
L’“Optimal Prediction” riguarda la determinazione di un modello
predittivo che sia il migliore possibile in termini di accuratezza nel
prevedere gli eventi futuri.
L’obiettivo principale è trovare il modello che massimizza la
precisione delle previsioni, minimizzando l’errore di previsione. Ci
sono vari metodi e tecniche per ottenere la predizione ottimale, a
seconda del contesto e dei dati disponibili.
# Caricamento del dataset "cars"
data(cars)
# Visualizzazione delle prime righe del dataset
head(cars)
# Dividiamo il dataset in set di addestramento e set di test
set.seed(123) # Impostiamo un seed per la riproducibilità
sample_indices <- sample(nrow(cars), nrow(cars) * 0.7) # 70% dati di addestramento
train_data <- cars[sample_indices, ]
test_data <- cars[-sample_indices, ]
# Adattamento di un modello di regressione lineare
model <- lm(dist ~ speed, data = train_data)
# Predizioni
predictions <- predict(model, newdata = test_data)
# Valutazione delle prestazioni
summary(model)
Call:
lm(formula = dist ~ speed, data = train_data)
Residuals:
Min 1Q Median 3Q Max
-18.820 -8.798 -2.272 5.614 44.951
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -22.0481 7.4169 -2.973 0.00548 **
speed 4.0457 0.4589 8.817 3.44e-10 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 13.08 on 33 degrees of freedom
Multiple R-squared: 0.702, Adjusted R-squared: 0.693
F-statistic: 77.73 on 1 and 33 DF, p-value: 3.435e-10
# Grafico dei risultati
library(ggplot2)
ggplot(data = test_data, aes(x = speed, y = dist)) +
geom_point(color = "blue") +
geom_smooth(method = "lm", se = FALSE, color = "red") +
ggtitle("Predizione della Distanza di Arresto")

[Torna all’ Indice]
Covarianza e Correlazione Empirica
La covarianza e correlazione empirica sono misure statistiche
utilizzate per quantificare la relazione tra due variabili in un insieme
di dati osservati. Queste misure sono strettamente legate e sono spesso
utilizzate per esaminare la relazione lineare tra due variabili.
Covarianza Empirica:
La covarianza empirica è una misura della tendenza di due variabili a
variare insieme. Indica se le due variabili crescono o diminuiscono
simultaneamente (covarianza positiva) o se una aumenta mentre l’altra
diminuisce (covarianza negativa). La formula per calcolare la covarianza
empirica tra due variabili X e Y in un set di dati è data da:
\[ Cov(X,Y) = \frac{1}{n-1} \sum_{i =
1}^n {(X_i - \overline{X})(Y_i - \overline{Y})} \]
Correlazione Empirica:
La correlazione empirica è una versione standardizzata della
covarianza empirica e misura la forza e la direzione di una relazione
lineare tra due variabili. La correlazione empirica è sempre compresa
tra -1 e 1. La formula per calcolare la correlazione empirica tra due
variabili X e Y è data da:
\[ Cor(X,Y) = \frac{Cov(X,Y)}{S_X \cdot
S_Y} \]
Le misure di covarianza empirica e correlazione empirica sono
utilizzate per esaminare la relazione tra variabili in un set di dati e
sono particolarmente utili nell’analisi statistica e nell’apprendimento
automatico per valutare le associazioni tra le variabili prima di
costruire modelli predittivi. La correlazione empirica è più comunemente
utilizzata perché fornisce una misura standardizzata della relazione tra
variabili ed è meno influenzata dall’unità di misura.
Il coefficiente di Pearson è utile per vedere se due variabili hanno
una correlazione lineare o meno. Questo perché non tutte le variabili
correlate hanno una relazione lineare.
Esempio:
# Esempio dati casuali
set.seed(123)
x <- rnorm(100) # Variabile x
y <- 2 * x + rnorm(100) # Variabile y (correlata a x)
# Calcola la correlazione di Pearson
correlation <- cor(x, y)
# Stampa il valore di correlazione
cat("Correlazione di Pearson tra x e y:", correlation, "\n")
Correlazione di Pearson tra x e y: 0.8786993
In questo esempio, stiamo generando dati casuali per le variabili x e
y. La variabile y è costruita come una trasformazione lineare di x con
un termine di errore aggiunto. Poi, utilizziamo la funzione cor() per
calcolare la correlazione di Pearson tra x e y.
Un valore vicino a 1 indica una correlazione lineare positiva forte,
un valore vicino a -1 indica una correlazione lineare negativa forte,
mentre un valore vicino a 0 indica una scarsa correlazione lineare tra
le due variabili.
[Torna all’ Indice]
Regressione Lineare Multipla
La “Multiple Linear Regression” (Regressione Lineare Multipla) è una
tecnica di modellazione statistica utilizzata per analizzare la
relazione tra una variabile dipendente (o target) e due o più variabili
indipendenti (o predittive). Questa tecnica estende la semplice
regressione lineare, che coinvolge solo una variabile indipendente, a un
contesto in cui più variabili indipendenti sono coinvolte nel modello.
La regressione lineare multipla è ampiamente utilizzata nell’analisi
statistica e nell’apprendimento automatico per fare previsioni o
comprendere le relazioni complesse tra variabili.
\[ Y = \beta_0 + \beta_1X_1 + ... +
\beta_nX_n + \epsilon \] L’obiettivo principale è stimare i
coefficienti β in modo che il modello si adatti meglio ai dati
osservati. Questo viene fatto utilizzando metodi di stima, come il
metodo dei minimi quadrati, che cerca di minimizzare la somma dei
quadrati degli errori residui. Il modello di regressione viene valutato
utilizzando metriche di valutazione delle prestazioni come l’errore
quadratico medio (RMSE), il coefficiente di determinazione (R-squared) e
altri. È importante eseguire test di significatività statistica per i
coefficienti delle variabili indipendenti per determinare se esse
contribuiscono significativamente al modello.
La regressione lineare multipla è basata su alcune assunzioni, tra
cui l’indipendenza degli errori, l’omoschedasticità (varianza costante
degli errori), la linearità della relazione e la normalità degli
errori.
# Carica il dataset mtcars
data(mtcars)
# Visualizza le prime righe del dataset
head(mtcars)
# Adattamento del modello di regressione lineare multipla
model <- lm(mpg ~ wt + hp + qsec, data = mtcars)
# Visualizza un riepilogo del modello
summary(model)
Call:
lm(formula = mpg ~ wt + hp + qsec, data = mtcars)
Residuals:
Min 1Q Median 3Q Max
-3.8591 -1.6418 -0.4636 1.1940 5.6092
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 27.61053 8.41993 3.279 0.00278 **
wt -4.35880 0.75270 -5.791 3.22e-06 ***
hp -0.01782 0.01498 -1.190 0.24418
qsec 0.51083 0.43922 1.163 0.25463
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 2.578 on 28 degrees of freedom
Multiple R-squared: 0.8348, Adjusted R-squared: 0.8171
F-statistic: 47.15 on 3 and 28 DF, p-value: 4.506e-11
In sintesi, il modello di regressione lineare multipla suggerisce che
il peso del veicolo influenza il consumo di carburante. La potenza del
motore e il tempo di accelerazione non sono significative per la
spiegazione di questo modello. Nonostante ciò il modello spiega l’83%
dei della variazione nei consumi di carburante.
[Torna all’ Indice]
Approcio Matriciale
L’approccio matriciale alla regressione è una forma alternativa di
rappresentazione e risoluzione dei modelli di regressione, inclusa la
regressione lineare. Questo approccio utilizza notazioni matematiche e
matrici per semplificare i calcoli e ottenere soluzioni più efficienti
in problemi di regressione lineare.
Ci permette di passare da: \[ Y = \beta_0
+ \beta_1X_1 + ... + \beta_nX_n + \epsilon \] a : \[ Y = \beta X + \epsilon \]
La soluzione matriciale per stimare i coefficienti β é: \[ \beta = ((X^T X)^{-1} X^T Y) \]
L’approccio matriciale semplifica la rappresentazione e la
risoluzione dei modelli di regressione, specialmente quando si lavora
con più variabili indipendenti. Inoltre, è utile per comprendere come
eseguire calcoli di regressione in modo più efficiente utilizzando
matrici e algebra lineare, specialmente in contesti di apprendimento
automatico in cui le dimensioni dei dati possono essere elevate.
# Carica il dataset "swiss" (un dataset di dati demografici svizzeri)
data(swiss)
# Visualizza le prime righe del dataset
head(swiss)
# Crea la matrice delle variabili indipendenti
X <- as.matrix(swiss[, c("Examination", "Education")])
# Aggiungi una colonna di 1 per l'intercetta
X <- cbind(1, X)
# Crea il vettore delle variabili dipendenti
Y <- swiss$Fertility
# Calcola i coefficienti del modello utilizzando l'approccio matriciale
beta <- solve(t(X) %*% X) %*% t(X) %*% Y
# Visualizza i coefficienti del modello
print(beta)
[,1]
85.2532753
Examination -0.5572183
Education -0.5394570
# Effettua previsioni con il modello matriciale
predictions <- X %*% beta
# Valuta le prestazioni del modello
model <- lm(Y ~ Examination + Education, data = swiss) # 0 indica di non calcolare l'intercetta
summary(model)
Call:
lm(formula = Y ~ Examination + Education, data = swiss)
Residuals:
Min 1Q Median 3Q Max
-15.9935 -6.8894 -0.3621 7.1640 19.2634
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 85.2533 3.0855 27.630 <2e-16 ***
Examination -0.5572 0.2319 -2.402 0.0206 *
Education -0.5395 0.1924 -2.803 0.0075 **
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 8.982 on 44 degrees of freedom
Multiple R-squared: 0.5055, Adjusted R-squared: 0.483
F-statistic: 22.49 on 2 and 44 DF, p-value: 1.87e-07
- Esame (Examination): Un aumento nei punteggi di esame è associato a
una diminuzione della fertilità nelle regioni svizzere. Questo
suggerisce che un migliore stato di salute generale, misurato tramite
l’esame, è correlato a una fertilità più bassa.
- Educazione (Education): Un aumento nel livello di educazione è
correlato a una riduzione della fertilità. Le regioni con un livello di
istruzione più elevato tendono ad avere una fertilità più bassa.
[Torna all’ Indice]
Interpretazione Geometrica
L’interpretazione geometrica della regressione lineare è un approccio
concettuale che utilizza uno spazio tridimensionale (o superiore) per
rappresentare visivamente il modello di regressione. In questo spazio,
ogni punto rappresenta un’osservazione nel dataset, e un piano (o
iperpiano) rappresenta il modello di regressione. L’obiettivo è trovare
il piano (o iperpiano) che minimizza la somma dei quadrati delle
distanze verticali tra i punti dati e il piano (o iperpiano). Questo
fornisce una visualizzazione intuitiva di come i coefficienti del
modello vengono stimati per ottenere la migliore “ajustement” ai dati,
minimizzando gli errori residui. L’interpretazione geometrica aiuta a
comprendere i principi fondamentali della regressione lineare e può
essere applicata a problemi più complessi con più variabili
indipendenti.
library(knitr)
library(plotly)
# Genera dati casuali
set.seed(123)
n <- 50
X1 <- rnorm(n)
X2 <- rnorm(n)
Y <- 2 * X1 + 3 * X2 + rnorm(n)
# Crea un dataframe con le variabili
data <- data.frame(X1, X2, Y)
# Adatta il modello di regressione lineare
model <- lm(Y ~ X1 + X2, data = data)
summary(model)
Call:
lm(formula = Y ~ X1 + X2, data = data)
Residuals:
Min 1Q Median 3Q Max
-1.88137 -0.74056 -0.06374 0.52516 2.27045
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -0.2299 0.1431 -1.607 0.115
X1 2.0252 0.1540 13.150 <2e-16 ***
X2 2.8304 0.1575 17.973 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9975 on 47 degrees of freedom
Multiple R-squared: 0.9107, Adjusted R-squared: 0.9069
F-statistic: 239.8 on 2 and 47 DF, p-value: < 2.2e-16
# Creazione di una griglia di punti
x1_range <- seq(min(X1), max(X1), length = 20)
x2_range <- seq(min(X2), max(X2), length = 20)
grid <- expand.grid(X1 = x1_range, X2 = x2_range)
# Calcolo delle previsioni del modello sulla griglia
grid$Y_pred <- predict(model, newdata = grid)
# Creazione del plot 3D con plotly
plot_ly(data, x = ~X1, y = ~X2, z = ~Y, type = "scatter3d", mode = "markers", marker = list(size = 5, color = "blue")) %>%
add_surface(
x = x1_range,
y = x2_range,
z = matrix(grid$Y_pred, nrow = length(x1_range), ncol = length(x2_range), byrow = TRUE),
colors = "red",
opacity = 0.7
) %>%
layout(scene = list(xaxis = list(title = "X1"), yaxis = list(title = "X2"), zaxis = list(title = "Y")))
NA
L’interpretazione geometrica ci consente di vedere come il piano di
regressione si adatta ai dati nello spazio tridimensionale e come i
coefficienti stimati influenzano la posizione e l’inclinazione del piano
rispetto ai dati osservati. Questo fornisce una visualizzazione
intuitiva della relazione tra le variabili indipendenti e dipendenti nel
contesto della regressione lineare.
[Torna all’ Indice]
Distribuzione F & Anova Table
L’ANOVA valuta globalmente se almeno una delle variabili indipendenti
ha un effetto significativo sulla variabile dipendente, fornisce una
statistica F e il relativo p-value. Un p-value basso suggerisce che
almeno una delle variabili indipendenti è significativa nel modello.
L’ANOVA fornisce quindi una visione complessiva della significatività
del modello nel suo complesso.
L’analisi della varianza (ANOVA) e i “signif. codes” nel summary del
modello forniscono informazioni simili, ma si concentrano su aspetti
diversi dell’analisi.
I “signif. codes” nel summary del modello forniscono una valutazione
variabile per variabile, indicando la significatività statistica di
ciascun coefficiente. Utilizza asterischi (*) o altri simboli per
indicare il livello di significatività, ad esempio, “***” potrebbe
indicare un livello di significatività molto elevato (p-value molto
basso), mentre ” ” (spazio) potrebbe indicare non significativo. Questa
parte del summary fornisce una visione più dettagliata sulla
significatività di ciascuna variabile indipendente separatamente.
L’ANOVA valuta la significatività del modello nel suo insieme, mentre
i “signif. codes” nel summary forniscono una visione dettagliata della
significatività di ciascuna variabile indipendente.
Esempio 1:
# Creiamo un dataset fittizio
set.seed(123)
data <- data.frame(
Gruppo = rep(c("A", "B", "C"), each = 20),
Punteggio = rnorm(60, mean = c(70, 75, 80), sd = 5)
)
# Eseguiamo l'ANOVA
anova_result <- aov(Punteggio ~ Gruppo, data = data)
# Visualizziamo la tabella ANOVA
summary(anova_result)
Df Sum Sq Mean Sq F value Pr(>F)
Gruppo 2 11.3 5.65 0.143 0.867
Residuals 57 2255.9 39.58
In questo esempio, eseguiamo un’ANOVA a un fattore per valutare le
differenze nei punteggi tra i gruppi A, B e C. Il rapporto F e il valore
p ci permettono di determinare se le differenze tra i gruppi sono
statisticamente significative.
I risultati suggeriscono che non ci sono differenze statisticamente
significative tra i gruppi, ossia il variare del gruppo non influenza
significativamente la variabile dipendente. La varianza tra i gruppi è
molto piccola rispetto alla varianza all’interno dei gruppi, e il test F
non è significativo. Questo può indicare che i gruppi sono simili tra
loro per quanto riguarda la variabile in studio.
Esempio 2:
# Creiamo un dataset fittizio
set.seed(123)
data <- data.frame(
Genere = rep(c("Maschio", "Femmina"), each = 50),
Trattamento = rep(c("A", "B"), times = 50),
Punteggio = rnorm(100, mean = c(75, 80), sd = 5)
)
# Eseguiamo l'ANOVA a due fattori
anova_result <- aov(Punteggio ~ Genere * Trattamento, data = data)
# Visualizziamo la tabella ANOVA
summary(anova_result)
Df Sum Sq Mean Sq F value Pr(>F)
Genere 1 7.8 7.8 0.367 0.546
Trattamento 1 575.8 575.8 26.953 1.16e-06 ***
Genere:Trattamento 1 2.6 2.6 0.121 0.729
Residuals 96 2050.8 21.4
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
In questo esempio, eseguiamo un’ANOVA a due fattori per esaminare le
differenze nei punteggi in base al genere e al trattamento.
Dalla tabella dell’ANOVA fornita, possiamo trarre le seguenti
conclusioni:
- Il fattore “Trattamento” ha un forte effetto sulla variabile
dipendente, con un valore di F elevato e un p-value molto basso,
indicando che le differenze tra i trattamenti sono statisticamente
significative (***).
- Il fattore “Genere” non ha un effetto significativo sulla variabile
dipendente, con un valore di F basso e un p-value elevato.
- L’interazione tra “Genere” e “Trattamento” non ha un effetto
significativo sulla variabile dipendente, con un valore di F e un
p-value non significativi.
I risultati dell’ANOVA suggeriscono che il “Trattamento” è il
principale driver delle differenze osservate nella variabile dipendente,
mentre il “Genere” e l’interazione tra “Genere” e “Trattamento” non
sembrano avere un effetto significativo.
- Un valore F maggiore di 1 suggerisce che i parametri o i fattori
sono significativi, poiché la varianza spiegata è maggiore della
varianza non spiegata.
- Un valore F vicino a 1 indica che il modello non spiega in modo
significativo la variabilità nei dati.
- Il valore p associato all’F-value fornisce la probabilità che i
risultati osservati siano dovuti al caso. Un valore p basso (di solito
inferiore a 0.05) indica una significatività elevata, mentre un valore p
alto suggerisce una mancanza di significatività.
Sistema di ipotesi:
Nell’analisi statistica in cui si calcola un valore F, ci sono due
ipotesi principali: l’ipotesi nulla (H0) e l’ipotesi alternativa
(H1).
Ipotesi Nulla (H0): L’ipotesi nulla afferma che non ci sono
differenze significative tra i gruppi o i fattori considerati. In altre
parole, l’ipotesi nulla sostiene che i parametri del modello o i fattori
non hanno un effetto significativo sul risultato o che le differenze
osservate sono casuali.
Ipotesi Alternativa (H1 o HA): L’ipotesi alternativa è il contrario
dell’ipotesi nulla. Sostiene che ci sono differenze significative tra i
gruppi o i fattori considerati, e che le differenze osservate non sono
casuali, ma sono dovute a un effetto significativo dei parametri del
modello o dei fattori.
Continuiamo l’esempio di prima:
model <- lm(Punteggio ~ Genere * Trattamento, data = data)
summary(model)
Call:
lm(formula = Punteggio ~ Genere * Trattamento, data = data)
Residuals:
Min 1Q Median 3Q Max
-12.3383 -3.1482 -0.1363 3.1717 10.9341
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 75.6716 0.9244 81.861 < 2e-16 ***
GenereMaschio -0.2383 1.3073 -0.182 0.855741
TrattamentoB 5.1208 1.3073 3.917 0.000168 ***
GenereMaschio:TrattamentoB -0.6434 1.8488 -0.348 0.728578
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.622 on 96 degrees of freedom
Multiple R-squared: 0.2223, Adjusted R-squared: 0.198
F-statistic: 9.147 on 3 and 96 DF, p-value: 2.206e-05
# Estraiamo il valore p
p_value <- anova_summary[[1]][["Pr(>F)"]][3] # Usiamo [3] per estrarre il valore relativo all'interazione
# Scegliamo un livello di significatività (alpha)
alpha <- 0.05
# Valutiamo se rifiutare l'ipotesi nulla
if (p_value < alpha) {
cat("Rifiutiamo l'ipotesi nulla. Ci sono differenze significative tra i gruppi.\n")
} else {
cat("Non rifiutiamo l'ipotesi nulla. Non ci sono differenze significative tra i gruppi.\n")
}
Non rifiutiamo l'ipotesi nulla. Non ci sono differenze significative tra i gruppi.
La F-statistic nel summary di un modello lineare (lm) rappresenta la
statistica del test F per l’intero modello. Questo test verifica se c’è
almeno una variabile indipendente nel modello che è significativamente
associata alla variabile dipendente. In altre parole, valuta l’ipotesi
nulla che tutti i coefficienti delle variabili indipendenti nel modello
siano uguali a zero (cioè che non ci siano effetti).
In breve la F-statistic suggerisce che almeno una delle interazioni
tra “Genere” e “Trattamento” o almeno una delle principali effetti è
significativa nel modello.
[Torna all’ Indice]
Modelli Nidificati
Nei modelli statistici, un “nested model” si verifica quando un
modello più complesso o generale può essere suddiviso o semplificato in
un modello più semplice o specifico. Il modello più semplice è
considerato “nidificato” all’interno del modello più complesso, poiché
contiene un sottoinsieme di parametri o vincoli del modello più
generale.
Nel contesto della regressione, i modelli nidificati sono spesso
utilizzati per testare l’aggiunta di variabili indipendenti al modello
al fine di valutare se le variabili aggiuntive migliorano
significativamente la capacità di previsione o spiegazione del modello.
I modelli nidificati sono anche utilizzati in contesti come l’analisi
della varianza (ANOVA), l’analisi della devianza nei modelli lineari
generalizzati (che vedremo più avanti) e altre procedure
statistiche.
Esempio di Modelli di Regressione Nidificati:
Supponiamo di voler creare un modello di regressione per prevedere il
reddito di una persona basandoci su quattro variabili indipendenti: età,
istruzione, esperienza lavorativa e genere. Il modello completo potrebbe
essere:
Modello Completo
\[ Reddito = \beta_0 + \beta_1 \cdot Età +
\beta_2 \cdot Istruzione + \beta_3 \cdot Esperienza + \beta_4 \cdot
Genere \] Tuttavia, potremmo essere interessati a valutare se
l’aggiunta della variabile “genere” migliora significativamente la
capacità predittiva del modello. In tal caso, il modello senza “genere”
è nidificato all’interno del modello completo:
Modello Nidificato
\[ Reddito' = \beta_0 + \beta_1 \cdot
Età + \beta_2 \cdot Istruzione + \beta_3 \cdot Esperienza \]
In questo esempio, il Modello 1 è il modello completo e il Modello 2
è il modello nidificato senza il parametro per “genere”. Valutiamo
tramite un ANOVA quale dei due modelli sia considerato più
significativo.
# Creiamo dati fittizi
set.seed(123)
n <- 100
eta <- rnorm(n, mean = 35, sd = 5)
istruzione <- rnorm(n, mean = 12, sd = 2)
esperienza <- rnorm(n, mean = 10, sd = 3)
genere <- sample(c("Maschio", "Femmina"), n, replace = TRUE)
reddito <- 20 + 2 * eta + 3 * istruzione + 5 * esperienza + ifelse(genere == "Maschio", 4, 0) + rnorm(n, mean = 0, sd = 5)
# Creiamo un dataframe con i dati
data <- data.frame(eta, istruzione, esperienza, genere, reddito)
# Modello completo
modello_completo <- lm(reddito ~ eta + istruzione + esperienza + genere, data = data)
# Modello nidificato senza "genere"
modello_nidificato <- lm(reddito ~ eta + istruzione + esperienza, data = data)
# Test F per confrontare i modelli
anova_result <- anova(modello_nidificato, modello_completo)
# Visualizziamo la tabella ANOVA
print(anova_result)
Analysis of Variance Table
Model 1: reddito ~ eta + istruzione + esperienza
Model 2: reddito ~ eta + istruzione + esperienza + genere
Res.Df RSS Df Sum of Sq F Pr(>F)
1 96 3137.3
2 95 2606.6 1 530.69 19.342 2.852e-05 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# Scegliamo un livello di significatività (alpha)
alpha <- 0.05
# Valutiamo se rifiutare l'ipotesi nulla
if (anova_result[2, "Pr(>F)"] < alpha) {
cat("La rimozione di 'genere' non migliora significativamente il modello.\n")
} else {
cat("La rimozione di 'genere' migliora significativamente il modello.\n")
}
La rimozione di 'genere' non migliora significativamente il modello.
# R Squared dei due modelli
print("Modello completo ")
[1] "Modello completo "
summary(modello_completo)$r.squared
[1] 0.9155659
print("Modello annidato ")
[1] "Modello annidato "
summary(modello_nidificato)$r.squared
[1] 0.8983755
[Torna all’ Indice]
Selezione delle variabili
La “variable selection” è un processo attraverso il quale si scelgono
le variabili più rilevanti da includere in un modello statistico. Questo
processo è utile per semplificare i modelli, migliorare la capacità
predittiva e la comprensione dei dati, ridurre l’overfitting e aumentare
l’efficienza computazionale.
Un metodo comune per la selezione delle variabili in R coinvolge
l’utilizzo dell’Information Criterion (Criterio d’Informazione) di
Akaike (AIC) insieme alla funzione step().
AIC (Akaike’s Information Criterion):
Il Criterio d’Informazione di Akaike (AIC) è una metrica che misura
la qualità di un modello statistico. L’obiettivo dell’AIC è trovare il
miglior compromesso tra la bontà di adattamento del modello ai dati e la
sua complessità. L’AIC tiene conto della funzione di verosimiglianza del
modello e penalizza i modelli con un numero maggiore di parametri. L’AIC
è definito come:
\[ AIC = -2logLikelihood + 2k
\]
Dove:
- “log-likelihood” è il logaritmo della funzione di verosimiglianza
del modello.
- “k” è il numero di parametri stimati nel modello. Un valore AIC più
basso indica un modello migliore, in quanto indica un migliore
adattamento ai dati con meno complessità.
Funzione step():
La funzione step() in R è utilizzata per effettuare la selezione
delle variabili basata su criteri come l’AIC. Consente di confrontare e
selezionare i modelli in modo automatico aggiungendo o rimuovendo
variabili dal modello, fino a trovare il modello con l’AIC più basso. La
sintassi di base della funzione step() è la seguente:
#step(modello_iniziale, direction = "both", scope = list(lower = modello_minimo, upper = modello_massimo))
- modello_iniziale è il modello di partenza che desideri semplificare
o migliorare.
- direction può essere “forward”, “backward”, o “both” e specifica se
aggiungere, rimuovere o entrambi i tipi di variabili durante la
selezione.
- scope specifica l’intervallo dei modelli da considerare durante la
selezione. Il - “modello_minimo” rappresenta il modello più semplice
possibile (ad esempio, un modello con solo l’intercetta), mentre il
“modello_massimo” rappresenta il modello più complesso (il modello
completo con tutte le variabili).
# Carica il dataset di esempio
data(mtcars)
# Crea un modello lineare iniziale
all <- lm(mpg ~ ., data = mtcars)
# Esegui la selezione delle variabili basata su AIC
best <- step(all, direction = "backward")
Start: AIC=70.9
mpg ~ cyl + disp + hp + drat + wt + qsec + vs + am + gear + carb
Df Sum of Sq RSS AIC
- cyl 1 0.0799 147.57 68.915
- vs 1 0.1601 147.66 68.932
- carb 1 0.4067 147.90 68.986
- gear 1 1.3531 148.85 69.190
- drat 1 1.6270 149.12 69.249
- disp 1 3.9167 151.41 69.736
- hp 1 6.8399 154.33 70.348
- qsec 1 8.8641 156.36 70.765
<none> 147.49 70.898
- am 1 10.5467 158.04 71.108
- wt 1 27.0144 174.51 74.280
Step: AIC=68.92
mpg ~ disp + hp + drat + wt + qsec + vs + am + gear + carb
Df Sum of Sq RSS AIC
- vs 1 0.2685 147.84 66.973
- carb 1 0.5201 148.09 67.028
- gear 1 1.8211 149.40 67.308
- drat 1 1.9826 149.56 67.342
- disp 1 3.9009 151.47 67.750
- hp 1 7.3632 154.94 68.473
<none> 147.57 68.915
- qsec 1 10.0933 157.67 69.032
- am 1 11.8359 159.41 69.384
- wt 1 27.0280 174.60 72.297
Step: AIC=66.97
mpg ~ disp + hp + drat + wt + qsec + am + gear + carb
Df Sum of Sq RSS AIC
- carb 1 0.6855 148.53 65.121
- gear 1 2.1437 149.99 65.434
- drat 1 2.2139 150.06 65.449
- disp 1 3.6467 151.49 65.753
- hp 1 7.1060 154.95 66.475
<none> 147.84 66.973
- am 1 11.5694 159.41 67.384
- qsec 1 15.6830 163.53 68.200
- wt 1 27.3799 175.22 70.410
Step: AIC=65.12
mpg ~ disp + hp + drat + wt + qsec + am + gear
Df Sum of Sq RSS AIC
- gear 1 1.565 150.09 63.457
- drat 1 1.932 150.46 63.535
<none> 148.53 65.121
- disp 1 10.110 158.64 65.229
- am 1 12.323 160.85 65.672
- hp 1 14.826 163.35 66.166
- qsec 1 26.408 174.94 68.358
- wt 1 69.127 217.66 75.350
Step: AIC=63.46
mpg ~ disp + hp + drat + wt + qsec + am
Df Sum of Sq RSS AIC
- drat 1 3.345 153.44 62.162
- disp 1 8.545 158.64 63.229
<none> 150.09 63.457
- hp 1 13.285 163.38 64.171
- am 1 20.036 170.13 65.466
- qsec 1 25.574 175.67 66.491
- wt 1 67.572 217.66 73.351
Step: AIC=62.16
mpg ~ disp + hp + wt + qsec + am
Df Sum of Sq RSS AIC
- disp 1 6.629 160.07 61.515
<none> 153.44 62.162
- hp 1 12.572 166.01 62.682
- qsec 1 26.470 179.91 65.255
- am 1 32.198 185.63 66.258
- wt 1 69.043 222.48 72.051
Step: AIC=61.52
mpg ~ hp + wt + qsec + am
Df Sum of Sq RSS AIC
- hp 1 9.219 169.29 61.307
<none> 160.07 61.515
- qsec 1 20.225 180.29 63.323
- am 1 25.993 186.06 64.331
- wt 1 78.494 238.56 72.284
Step: AIC=61.31
mpg ~ wt + qsec + am
Df Sum of Sq RSS AIC
<none> 169.29 61.307
- am 1 26.178 195.46 63.908
- qsec 1 109.034 278.32 75.217
- wt 1 183.347 352.63 82.790
In questo esempio, partiamo da un modello lineare completo che
utilizza tutte le variabili di mtcars, e poi utilizziamo step() per
eseguire la selezione delle variabili basata su AIC. Alla fine,
otteniamo il modello con l’AIC più basso, che dovrebbe essere una
versione semplificata del modello iniziale con solo le variabili più
rilevanti.
La “variable selection” utilizzando AIC e step() è un potente
strumento per migliorare la qualità e l’interpretabilità dei modelli
statistici, in particolare quando si hanno molti potenziali
predittori.
[Torna all’ Indice]
Predizioni Categoriche
Nell’analisi statistica, i “categorical predictors” sono variabili
che rappresentano categorie o gruppi distinti anziché valori numerici.
Queste variabili sono anche conosciute come variabili qualitative o
fattori. Ad esempio, il genere (maschio/femmina), il livello di
istruzione (scuola elementare, scuola media, laurea), o il tipo di
prodotto (A, B, C) sono esempi di predittori categorici. Quando si
utilizzano predittori categorici in un modello statistico, è importante
considerare come gestire e interpretare questi dati.
Una considerazione fondamentale è come rappresentare le variabili
categoriche nel modello. Solitamente, vengono utilizzate delle variabili
dummy (variabili indicatrici) per rappresentare le categorie. Ad
esempio, nel caso del genere (maschio/femmina), potrebbero essere create
due variabili dummy, una per il maschio e una per la femmina. Queste
variabili dummy prendono il valore 1 o 0 a seconda dell’appartenenza
alla categoria. Questo approccio consente al modello di catturare
l’effetto della categoria sulla variabile dipendente.
Oltre alla rappresentazione delle variabili categoriche, è importante
considerare le interazioni tra i predittori. Le interazioni si
verificano quando l’effetto di una variabile categorica sul risultato
dipende da un’altra variabile. Ad esempio, l’effetto del livello di
istruzione sul reddito potrebbe variare in base al genere. In questo
caso, c’è un’interazione tra il livello di istruzione e il genere.
Per esaminare le interazioni tra predittori categorici, è possibile
utilizzare l’analisi della varianza (ANOVA) o i modelli lineari
generalizzati (che vedremo più avanti). Le interazioni possono fornire
informazioni preziose sull’influenza combinata delle variabili
categoriche sul risultato.
# Creiamo dati fittizi
set.seed(123)
n <- 100
genere <- sample(c("Maschio", "Femmina"), n, replace = TRUE)
istruzione <- rep(c("Elementare", "Media", "Laurea"), length.out = n )
reddito <- 30 + ifelse(genere == "Maschio", 5, 0) + ifelse(istruzione == "Laurea", 10, 0) + rnorm(n, mean = 0, sd = 5)
# Creiamo un dataframe con i dati
data <- data.frame(genere, istruzione, reddito)
# Modello con interazione tra genere e istruzione
modello <- lm(reddito ~ genere * istruzione, data = data)
# Visualizziamo i risultati
summary(modello)
Call:
lm(formula = reddito ~ genere * istruzione, data = data)
Residuals:
Min 1Q Median 3Q Max
-9.3888 -3.0121 -0.6269 2.6272 11.0710
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 27.8429 1.2794 21.763 < 2e-16 ***
genereMaschio 5.8726 1.6681 3.521 0.000666 ***
istruzioneLaurea 12.0839 1.8438 6.554 2.98e-09 ***
istruzioneMedia 3.3778 1.7519 1.928 0.056860 .
genereMaschio:istruzioneLaurea -1.3699 2.3856 -0.574 0.567186
genereMaschio:istruzioneMedia -0.8084 2.3586 -0.343 0.732535
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 4.787 on 94 degrees of freedom
Multiple R-squared: 0.5839, Adjusted R-squared: 0.5618
F-statistic: 26.38 on 5 and 94 DF, p-value: < 2.2e-16
anova(modello, test = "chi")
Analysis of Variance Table
Response: reddito
Df Sum Sq Mean Sq F value Pr(>F)
genere 1 738.22 738.22 32.2149 1.525e-07 ***
istruzione 2 2277.06 1138.53 49.6837 1.892e-15 ***
genere:istruzione 2 7.66 3.83 0.1672 0.8463
Residuals 94 2154.06 22.92
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# Grafico reddito per soli maschi e sole femmine
ggplot(data = data, aes(x = istruzione, y = reddito, fill = genere)) +
geom_boxplot() +
labs(x = "Istruzione", y = "Reddito")

In questo esempio, stiamo creando dati fittizi con due predittori
categorici: “genere” e “istruzione”. Il modello lineare include
un’interazione tra questi due predittori. La tabella dei risultati
summary(modello) mostra come i predittori categorici e l’interazione
influenzano il reddito.
Possiamo concludere che il genere e il livello di istruzione hanno un
effetto significativo sul reddito, mentre le interazioni tra genere e
istruzione non sono significative in questo modello. Il modello nel suo
complesso è significativo e in grado di spiegare una parte della
variazione nel reddito.
Fattori con più di due categorie:
Quando si affrontano fattori con più di due livelli (categorie), è
necessario considerare come gestire queste variabili nel modello. In
generale, un fattore con k livelli richiede la creazione di k-1
variabili dummy per evitare la “dummy variable trap”. Questo si verifica
quando le variabili dummy sono linearmente dipendenti e possono portare
a problemi di multicollinearità.
Ad esempio, se abbiamo una variabile “colore” con tre livelli (rosso,
verde, blu), dovremmo creare due variabili dummy per rappresentarla. Una
rappresenterà il rosso e l’altra il verde. Se entrambe le variabili
dummy sono uguali a 0, ciò significa che il colore è blu. Questo evita
la trap della variabile dummy.
# Creiamo dati fittizi
set.seed(123)
n <- 100
colore <- rep(c("Rosso", "Verde", "Blu"), length.out = n )
voto <- rnorm(n, mean = 50, sd = 10)
# Creiamo un dataframe con i dati
data <- data.frame(colore, voto)
# Modello con un fattore con più di due livelli
modello <- lm(voto ~ colore, data = data)
# Visualizziamo i risultati
summary(modello)
Call:
lm(formula = voto ~ colore, data = data)
Residuals:
Min 1Q Median 3Q Max
-23.6349 -6.1247 -0.4198 5.7870 21.9547
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 50.5432 1.5932 31.725 <2e-16 ***
coloreRosso 1.8459 2.2364 0.825 0.411
coloreVerde -0.8084 2.2531 -0.359 0.721
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 9.152 on 97 degrees of freedom
Multiple R-squared: 0.01508, Adjusted R-squared: -0.005228
F-statistic: 0.7426 on 2 and 97 DF, p-value: 0.4786
I risultati indicano che il colore del prodotto (rosso o verde) non
ha un impatto significativo sul voto. L’intercetta, che rappresenta il
colore “Blu,” è significativa, ma il modello nel suo insieme non è molto
efficace nel spiegare la variazione nei voti.
[Torna all’ Indice]
Controllo del Modello
Il Model Checking è una fase cruciale nell’analisi statistica,
specialmente quando si adotta un modello di regressione. Durante questa
fase, si valuta se il modello soddisfa le principali assunzioni dei
modelli lineari. Le quattro assunzioni principali da verificare
sono:
- Linearity (Linearità): Questa assunzione afferma
che la risposta (variabile dipendente) può essere scritta come una
combinazione lineare delle variabili predittive (variabili
indipendenti). In altre parole, il modello dovrebbe essere in grado di
catturare il rapporto tra le variabili in modo lineare, con un certo
grado di rumore residuo. La linearità può essere verificata attraverso
grafici di dispersione o grafici residui.
- Independence (Indipendenza): Questa assunzione
richiede che gli errori (residui) del modello siano indipendenti l’uno
dall’altro. Ciò significa che il valore di errore per un’osservazione
non è influenzato dal valore di errore per un’altra osservazione.
L’indipendenza può essere verificata osservando i grafici dei residui in
sequenza temporale o spaziale, a seconda del contesto.
- Normality (Normalità): L’assunzione di normalità
richiede che i residui del modello seguano una distribuzione normale.
Questo è importante perché molte procedure statistiche si basano
sull’ipotesi di normalità dei residui. La normalità può essere
verificata tramite grafici quantile-quantile (QQ plot) o istogrammi dei
residui.
- Equal Variance (Varianza Uniforme): Questa
assunzione, chiamata anche omoschedasticità, richiede che la varianza
dei residui sia costante in tutti i livelli delle variabili predittive.
In altre parole, non dovrebbe esserci alcun modello discernibile nella
varianza dei residui. La varianza uniforme può essere verificata
osservando i grafici dei residui rispetto ai valori predetti.
Per verificare queste assunzioni, i Residuals-based displays (grafici
basati sui residui) sono spesso utilizzati. Questi includono:
- Scatterplot dei residui: Un grafico dei residui contro i valori
previsti o le variabili predittive. Questo può rivelare se c’è una
struttura non lineare nei residui.
- Grafico di sequenza temporale dei residui: Utilizzato quando i dati
sono raccolti nel tempo, questo grafico può rivelare dipendenze
temporali nei residui.
- QQ-plot (Quantile-Quantile plot): Questo grafico confronta i
quantili dei residui con quelli di una distribuzione normale. Se i punti
del grafico seguono una linea retta, i residui sono approssimativamente
normali.
- Istogramma dei residui: Un istogramma dei residui può dare un’idea
della loro distribuzione e normalità.
Rispettare queste assunzioni è importante per garantire che le stime
del modello siano affidabili e che le conclusioni siano valide. Se una o
più di queste assunzioni non sono soddisfatte, potrebbero essere
necessarie correzioni al modello o ai dati stessi.
[Torna all’ Indice]
Transformazioni
Le trasformazioni sono una tecnica utilizzata nella modellazione
statistica per modificare le relazioni tra variabili al fine di
soddisfare meglio le assunzioni del modello. Le trasformazioni possono
essere utili quando le relazioni tra le variabili non sono lineari o
quando le assunzioni di omoschedasticità o normalità dei residui non
sono soddisfatte. Di seguito, affrontiamo i seguenti argomenti relativi
alle trasformazioni:
Variance Stabilizing Transformations (Trasformazioni per
Stabilizzare la Varianza): In alcuni casi, la varianza dei dati può
variare in modo non costante con il cambiare del valore medio. Questo
fenomeno è noto come eteroschedasticità. Le trasformazioni possono
essere utilizzate per stabilizzare la varianza, rendendo la relazione
tra il valore medio e la varianza più costante. Un esempio comune è la
trasformazione di Box-Cox.
Box-Cox Transform: La trasformazione di Box-Cox è una tecnica
utilizzata per stabilizzare la varianza e rendere i dati
approssimativamente normali. È definita come:
\[
y(\lambda) = \begin{cases} \frac{(y^\lambda - 1)}{\lambda} &
\text{se } \lambda \neq 0 \\
\log(y) & \text{se } \lambda = 0
\end{cases}
\]
Dove y sono i dati originali e λ è il parametro di trasformazione. È
possibile calcolare il valore ottimale di λ che massimizza la normalità
dei dati.
library(ggplot2)
library(MASS)
library(gridExtra)
# Genera dati casuali
set.seed(123)
data <- data.frame(y = rgamma(100, shape = 2, scale = 1))
# Applica la trasformazione di Box-Cox
result <- boxcox(y ~ 1, data = data)

lambda <- result$x[which.max(result$y)]
transformed_data <- if (lambda == 0) log(data$y) else ((data$y^lambda - 1) / lambda)
# Visualizza il valore ottimale di lambda
cat("Valore ottimale di lambda: ", lambda, "\n")
Valore ottimale di lambda: 0.3838384
# Crea un dataframe con i dati originali e trasformati
plot_data <- data.frame(Original = data$y, Transformed = transformed_data)
# Plotta i dati originali
plot_original <- ggplot(plot_data, aes(x = Original)) +
geom_histogram(binwidth = 0.5, fill = "blue", alpha = 0.7) +
labs(title = "Distribuzione dei dati originali")
# Plotta i dati trasformati
plot_transformed <- ggplot(plot_data, aes(x = Transformed)) +
geom_histogram(binwidth = 0.1, fill = "green", alpha = 0.7) +
labs(title = "Distribuzione dei dati trasformati")
# Mostra i grafici sulla stessa riga
grid.arrange(plot_original, plot_transformed, ncol = 2)

- Polynomials (Polinomi): Le trasformazioni polinomiali consentono di
modellare relazioni non lineari tra variabili. È possibile aggiungere
termini polinomiali al modello di regressione per catturare curve o
relazioni più complesse. Ad esempio, si possono utilizzare polinomi di
secondo grado per modellare una relazione quadratica tra una variabile
indipendente e la variabile dipendente. L’aggiunta di termini
polinomiali può migliorare l’adattamento del modello ai dati, ma è
importante evitare di aggiungere troppi termini polinomiali per evitare
l’overfitting.
# Modello lineare con un termine polinomiale di secondo grado
model <- lm(y ~ x + I(x^2), data = data)
- Transformations of Predictor Variables (Trasformazioni delle
Variabili Predittive): Le trasformazioni delle variabili predittive sono
utilizzate per adattare i dati in modo che soddisfino meglio le
assunzioni del modello. Queste trasformazioni coinvolgono la modifica
delle variabili indipendenti piuttosto che della variabile dipendente.
Possono essere utilizzate per rendere le relazioni tra le variabili più
lineari o per stabilizzare la varianza. Ad esempio, è possibile
applicare una trasformazione logaritmica o una radice quadrata a una
variabile predittiva per renderla più lineare nei confronti della
variabile dipendente.
# Creiamo dati fittizi
set.seed(123)
X <- rnorm(100, mean = 10, sd = 2)
Y <- 2 * X + rnorm(100, mean = 0, sd = 1)
# Creiamo un dataframe con i dati
data <- data.frame(X, Y)
# Modello lineare senza trasformazione
model_no_transform <- lm(Y ~ X, data = data)
# Visualizziamo il summary del modello senza trasformazione
summary(model_no_transform)
Call:
lm(formula = Y ~ X, data = data)
Residuals:
Min 1Q Median 3Q Max
-1.9073 -0.6835 -0.0875 0.5806 3.2904
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) 0.15956 0.55265 0.289 0.773
X 1.97376 0.05344 36.935 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 0.9707 on 98 degrees of freedom
Multiple R-squared: 0.933, Adjusted R-squared: 0.9323
F-statistic: 1364 on 1 and 98 DF, p-value: < 2.2e-16
# Trasformiamo la variabile X applicando il logaritmo
data$X_transformed <- log(data$X)
# Modello lineare con la variabile X trasformata
model_with_transform <- lm(Y ~ X_transformed, data = data)
# Visualizziamo il summary del modello con la variabile X trasformata
summary(model_with_transform)
Call:
lm(formula = Y ~ X_transformed, data = data)
Residuals:
Min 1Q Median 3Q Max
-1.9290 -0.7441 -0.1202 0.5388 3.3305
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -24.1696 1.2961 -18.65 <2e-16 ***
X_transformed 19.2819 0.5608 34.38 <2e-16 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.037 on 98 degrees of freedom
Multiple R-squared: 0.9235, Adjusted R-squared: 0.9227
F-statistic: 1182 on 1 and 98 DF, p-value: < 2.2e-16
Le trasformazioni sono strumenti potenti per adattare i modelli ai
dati in modo più accurato quando le relazioni tra variabili non sono
lineari o quando le assunzioni del modello non sono soddisfatte.
Tuttavia, è importante scegliere con attenzione le trasformazioni per
evitare il sovradattamento e garantire che i risultati siano
interpretabili.
[Torna all’ Indice]
Multicollinearità
La multicollinearità si verifica quando due o più variabili
indipendenti in un modello di regressione sono fortemente correlate tra
loro. Questa correlazione tra le variabili indipendenti può rendere
difficile l’interpretazione del modello e portare a stime poco
affidabili dei coefficienti di regressione. La presenza di
multicollinearità può causare un aumento del Variance Inflation Factor
(VIF), una misura comune utilizzata per valutare la multicollinearità
tra le variabili indipendenti in un modello di regressione. Un alto VIF
per una variabile indica che quella variabile è fortemente correlata con
le altre variabili indipendenti nel modello.
Variance Inflation Factor:
Il VIF di ciascuna variabile indipendente è calcolato come il
rapporto della varianza dell’errore standard del coefficiente di
regressione stimato per quella variabile rispetto alla varianza
dell’errore standard se la variabile fosse stata completamente non
correlata alle altre variabili indipendenti. In generale, un VIF
superiore a 5 o 10 è spesso considerato un segno di multicollinearità
significativa.
\[
VIF_i = (X^TX)_{i+1,i+1}^{-1}*ns^2_{X_i} \ \ oppure \ \ VIF_i =
\frac{1}{1-R^2_i}
\]
# Load the necessary library
library(car)
# Create a sample dataset with multiple predictor variables
set.seed(123)
data <- data.frame(
X1 = rnorm(100),
X2 = rnorm(100),
X3 = rnorm(100),
X4 = rnorm(100)
)
# Add a dependent variable (response)
data$Y <- 2 * data$X1 + 3 * data$X2 + 1.5 * data$X3 + rnorm(100)
# Fit a linear regression model
model <- lm(Y ~ X1 + X2 + X3 + X4, data = data)
# Calculate VIF
vif_values <- vif(model)
# Print the VIF values
vif_values
X1 X2 X3 X4
1.021515 1.004920 1.020348 1.006429
Tutti i valori VIF sono vicini a 1, il che suggerisce che non c’è una
forte multicollinearità tra le variabili predittive X1, X2, X3 e X4.
Questo è un buon segno, poiché significa che le variabili non sono
fortemente correlate tra loro.
Valori VIF più elevati indicano una multicollinearità più forte, e
valori al di sopra di una certa soglia (ad esempio, VIF > 5) possono
suggerire la necessità di affrontare la collinearità, ad esempio,
rimuovendo una delle variabili predittive correlate.
[Torna all’ Indice]
Punti Influenti
I punti influenti si riferiscono a osservazioni nei dati che hanno un
impatto significativo sui risultati di un’analisi statistica, come una
regressione lineare. Questi punti possono influenzare la stima dei
parametri del modello, i residui, i valori p, l’R-squared e altre
statistiche di rilevanza. Ci sono diverse metriche utilizzate per
identificare i punti influenti, tra cui Standardized Residuals,
Studentized Residuals e Cook’s Distance.
- Standardized Residuals (Residui Standardizzati): Questi sono i
residui divisi per la deviazione standard dei residui. Un residuo
standardizzato è una misura di quanto un punto dato si discosti dalla
linea di regressione in termini di deviazioni standard. I punti con
residui standardizzati molto grandi (positivi o negativi) sono
considerati influenti.
- Studentized Residuals (Residui Studentizzati): Questi sono i residui
divisi per una stima della deviazione standard dell’errore residuo. I
residui studentizzati sono utilizzati per valutare quanto un punto dato
sia influente considerando l’effetto delle altre osservazioni nel
dataset. I punti con residui studentizzati significativamente grandi in
valore assoluto sono considerati influenti.
- Cook’s Distance (Distanza di Cook): Cook’s Distance è una metrica
che combina l’effetto di un punto sui parametri del modello e il suo
effetto sui residui. I punti con Cook’s Distance molto grandi sono
considerati influenti. Cook’s Distance è spesso utilizzato per
identificare punti che, se rimossi, avrebbero un impatto significativo
sui risultati del modello.
Nel contesto della regressione, i punti influenti possono derivare da
outlier nei dati, dati errati o punti che influenzano notevolmente la
stima dei parametri. Identificare e trattare i punti influenti è
importante per garantire che il modello di regressione sia affidabile e
rappresenti accuratamente i dati. La rimozione di punti influenti può
migliorare la bontà di adattamento del modello e l’accuratezza delle
previsioni.
# Carichiamo il dataset di esempio
data(mtcars)
# Adattiamo un modello di regressione lineare
model <- lm(mpg ~ wt + hp, data = mtcars)
# Calcoliamo i residui standardizzati
standardized_residuals <- rstandard(model)
# Identifichiamo i punti influenti basati sui residui standardizzati
influential_points <- which(abs(standardized_residuals) > 2)
# Visualizziamo gli indici dei punti influenti
cat("Punti influenti basati sui residui standardizzati:", influential_points, "\n")
Punti influenti basati sui residui standardizzati: 17 18 20
# Calcoliamo Cook's Distance
cook_distance <- cooks.distance(model)
# Identifichiamo i punti influenti basati su Cook's Distance
influential_points_cook <- which(cook_distance > 4 / length(cook_distance))
# Visualizziamo gli indici dei punti influenti basati su Cook's Distance
cat("Punti influenti basati su Cook's Distance:", influential_points_cook, "\n")
Punti influenti basati su Cook's Distance: 17 18 20 31
par(mfrow = c(1,2))
# Grafico dei punti con evidenziazione dei punti influenti
plot(mtcars$wt, mtcars$mpg, pch = 16, main = "Punti Influenti (Stan e Stud)",
xlab = "Peso (wt)", ylab = "Miglia per gallone (mpg)")
points(mtcars$wt[influential_points], mtcars$mpg[influential_points], pch = 16, col = "red", cex = 1.5)
plot(mtcars$wt, mtcars$mpg, pch = 16, main = "Punti Influenti (Cook)",
xlab = "Peso (wt)", ylab = "Miglia per gallone (mpg)")
points(mtcars$wt[influential_points_cook], mtcars$mpg[influential_points_cook], pch = 16, col = "red", cex = 1.5)

Leverage:
Il “Leverage” è una misura utilizzata nell’analisi dei dati
statistici per identificare punti influenti o osservazioni atipiche in
un modello di regressione. Questa misura valuta quanto un’osservazione
può influenzare i risultati del modello, in particolare i coefficienti
di regressione. Il leverage è calcolato sulla base delle variabili
predittive e può essere utilizzato per identificare le osservazioni che
hanno un impatto significativo sul modello.
Identificazione dei punti influenti: I punti con un valore di
leverage significativamente più alto degli altri sono quelli che possono
influenzare notevolmente il modello. Puoi stabilire una soglia
arbitraria o utilizzare metodi statistici per determinare quali punti
sono influenti. Ad esempio, i punti con leverage superiore a 2 volte la
media possono essere considerati influenti.
Esame dei punti influenti: Una volta identificati i punti influenti,
è possibile esaminarli ulteriormente per determinare se sono
effettivamente outliers o errori di misurazione. Potresti voler
esaminare le osservazioni con elevate differenze tra i valori osservati
e quelli previsti dal modello.
È importante notare che la rimozione dei punti influenti dovrebbe
essere effettuata con cautela e solo se c’è una giustificazione valida.
In alcuni casi, potresti scegliere di mantenere i punti influenti nel
modello se ritieni che rappresentino informazioni significative o se
hanno una spiegazione plausibile.
# Generiamo dati casuali
set.seed(123)
n <- 100
x <- rnorm(n)
y <- 2 * x + rnorm(n)
# Adattiamo un modello di regressione lineare
model <- lm(y ~ x)
# Calcoliamo i valori di leverage
leverage <- hatvalues(model)
# Identifichiamo i punti influenti
infl_points <- which(leverage > 2 * mean(leverage))
# Visualizziamo i punti influenti
print(infl_points)
6 16 18 26 44 57 70 72 97
6 16 18 26 44 57 70 72 97
par(mfrow = c(1,2))
# Plot del grafico
plot(x, y)
points(x[infl_points], y[infl_points], col = "blue", pch = 19)
# Plot del Leverage
plot(x, leverage)
points(x[infl_points], leverage[infl_points], col = "blue", pch = 19)

Nota che nell’esempio abbiamo utilizzato una soglia di leverage
arbitraria (2 volte la media) per identificare i punti influenti. In
un’applicazione pratica, è consigliabile considerare la soglia in base
al contesto del problema e all’analisi dei dati.
[Torna all’ Indice]
Modelli Lineari Generalizzati
I GLM estendono il framework della regressione lineare per gestire
un’ampia gamma di distribuzioni dei dati e tipologie di risposte. A
differenza della regressione lineare tradizionale, i GLM possono
accomodare distribuzioni di errori non normali e modellare relazioni tra
predittori e risposte attraverso una funzione di collegamento.
Un GLM è caratterizzato da tre componenti principali:
Componente Casuale (Distribuzione): La variabile
di risposta \(Y\) segue una
distribuzione di probabilità dalla famiglia esponenziale, che include
distribuzioni comuni come normale, binomiale e di Poisson.
Componente Sistematica (Predittore Lineare): La
relazione tra i predittori e il valore atteso della risposta è espressa
attraverso un predittore lineare (\(\eta\)). Il predittore lineare è una
combinazione dei predittori, ognuno moltiplicato per un parametro, e si
collega alla media della risposta attraverso una funzione di
collegamento.
Funzione di Collegamento: La funzione di
collegamento (\(g(\mu)\)) stabilisce il
collegamento tra il predittore lineare e la media della risposta.
Trasforma la scala della variabile di risposta e assicura che il
predittore lineare copra l’intera linea reale. Le funzioni di
collegamento comuni includono logit, probit e identità.
La forma generale di un GLM può essere rappresentata come segue:
\[ g(\mu) = X\beta \]
Dove:
- \(g(\mu)\) è la funzione di
collegamento.
- \(\mu\) è il valore atteso della
variabile di risposta.
- \(X\) è la matrice dei
predittori.
- \(\beta\) è il vettore dei
coefficienti.
Esempi:
Regressione Logistica Binaria:
- Distribuzione: Binomiale
- Funzione di Collegamento: Logit (log-rapporti di
probabilità)
- Equazione: \(\text{logit}(\mu) = X\beta\)
Descrizione: La funzione di collegamento logit
trasforma la probabilità di successo (\(\mu\)) in un predittore lineare. In questo
caso, il modello logistic descrive come la log-odds della probabilità di
successo sia lineare rispetto ai predittori.
Regressione di Poisson:
- Distribuzione: Poisson
- Funzione di Collegamento: Log
- Equazione: \(\log(\mu) =
X\beta\)
Descrizione: Con la funzione di collegamento
logaritmico, il modello di Poisson può gestire dati di conteggio, poiché
connette il logaritmo naturale del valore atteso (\(\mu\)) a un predittore lineare.
Regressione Gamma:
- Distribuzione: Gamma
- Funzione di Collegamento: Inverso
- Equazione: \(\frac{1}{\mu} = X\beta\)
Descrizione: La funzione di collegamento inversa in
un modello gamma è appropriata quando si modellano variabili con
distribuzioni a coda pesante. Collega l’inverso del valore atteso (\(\mu\)) a un predittore lineare.
Devianza
La devianza è una misura della discrepanza tra il modello statistico
e i dati osservati nei GLM. In generale, la devianza è utilizzata per
confrontare modelli alternativi e valutare quanto bene un modello si
adatta ai dati. Nel contesto dei GLM, la devianza è particolarmente
significativa perché tiene conto delle specifiche distribuzioni delle
variabili di risposta.
La devianza si calcola confrontando il modello fitted (previsto) con
un modello null, spesso noto come modello null di saturazione. Il
modello null rappresenta l’ipotesi che tutti i parametri del modello
siano uguali a zero, indicando l’assenza di effetti predittori. La
devianza è data dalla seguente formula:
\[ D = 2 \times \left( \ell(\hat{\beta}) -
\ell(\beta_0) \right) \]
Dove:
- \(\ell(\hat{\beta})\) è il
log-likelihood del modello fitted.
- \(\ell(\beta_0)\) è il
log-likelihood del modello null.
- \(D\) è la devianza.
Poiché i GLM utilizzano la famiglia esponenziale di distribuzioni, la
devianza assume una forma specifica per diverse distribuzioni.
Formule della Verosimiglianza:
Modello Normale: La verosimiglianza nel caso di
una distribuzione normale è definita dalla densità di probabilità della
distribuzione normale. Per una singola osservazione, la formula è: \[ L(y_i | \mu_i, \sigma^2) =
\frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i -
\mu_i)^2}{2\sigma^2}\right) \]
Dove:
- \(y_i\) è l’osservazione
i-esima.
- \(\mu_i\) è il valore atteso della
variabile di risposta i-esima.
- \(\sigma^2\) è la varianza.
Modello di Poisson: La verosimiglianza nel caso
di una distribuzione di Poisson è definita come segue: \[ L(y_i | \lambda_i) = \frac{\lambda_i^{y_i}
\exp(-\lambda_i)}{y_i!} \]
Dove:
- \(y_i\) è l’osservazione
i-esima.
- \(\lambda_i\) è il valore atteso
della variabile di risposta i-esima.
La devianza può essere interpretata come una misura della discrepanza
tra il modello fitted e il modello null. Un valore di devianza più basso
indica una migliore adattabilità del modello ai dati. Tuttavia, poiché
la devianza è una misura assoluta, è spesso utilizzato il concetto di
devianza residua, che è la devianza divisa per il numero di gradi di
libertà del modello. Questo consente un confronto più equo tra modelli
con differenti complessità.
Nel contesto dei GLM, la devianza è spesso scomposta in tre
componenti principali:
Modello Fitted Deviance (\(D_{\text{fitted}}\)): Misura la discrepanza
tra il modello fitted e i dati osservati.
Null Deviance (\(D_{\text{null}}\)): Misura la discrepanza
tra il modello null e i dati osservati.
Residual Deviance (\(D_{\text{residual}}\)): Rappresenta la
devianza residua, cioè la discrepanza non spiegata dal modello
fitted.
L’utilizzo di queste componenti permette di comprendere come la
devianza è distribuita tra il modello fitted, il modello null e la
devianza residua.
Il test di devianza è spesso utilizzato per confrontare modelli
alternativi. La differenza nella devianza tra due modelli segue
approssimativamente una distribuzione chi-quadro sotto l’ipotesi nulla
che i due modelli siano equivalenti. Questo test può essere utilizzato
per valutare l’aggiunta di predittori al modello o per confrontare
modelli con differenti specifiche di distribuzione della risposta.
Esempio di Devianza:
# Carichiamo un dataset di esempio in R
data(mtcars)
# Creiamo un modello di Poisson
model_poisson <- glm(vs ~ wt + hp, family = poisson, data = mtcars)
# Calcoliamo la devianza
deviance_value <- deviance(model_poisson)
cat("Devianza del Modello di Poisson:", deviance_value, "\n")
Devianza del Modello di Poisson: 9.969627
In questo esempio, calcoliamo e visualizziamo la devianza residua di
un modello di Poisson.
Residui
Nei GLM, i residui svolgono un ruolo cruciale nel valutare
l’adattamento del modello ai dati e nel verificare la validità delle
ipotesi dietro il modello. A differenza dei Modelli Lineari (LM), i
residui nei GLM sono calcolati considerando la distribuzione della
risposta specifica del modello.
- Misurare la Bontà di Adattamento:
- I residui nei GLM sono utilizzati per valutare la bontà di
adattamento del modello. Se il modello si adatta bene ai dati, ci si
aspetta che i residui abbiano una distribuzione che riflette la
distribuzione della risposta specificata nel GLM.
- Indicazioni sulla Struttura dei Dati:
- Nei GLM, la scelta della distribuzione della risposta e della
funzione di legame può variare in base alla natura dei dati. I residui
forniscono indicazioni sulla struttura dei dati e sulla validità delle
ipotesi del modello.
- Diagnosticare Devianza:
- La devianza, una misura della differenza tra il modello completo e
uno più semplice, può essere diagnosticata attraverso i residui. Residui
devianti e standardized deviance residuals sono spesso utilizzati per
individuare modelli non adatti ai dati.
Le principali differenze tra i residui nei GLM e nei LM riguardano la
distribuzione della risposta e la funzione di legame.
- Distribuzione della Risposta:
- Nei GLM, i residui sono calcolati tenendo conto della distribuzione
della risposta specificata nel modello. Ad esempio, nei modelli di
Poisson, i residui devono adattarsi alla distribuzione di Poisson.
- Nei LM, i residui sono basati sull’assunzione che la risposta sia
distribuita normalmente.
- Funzione di Legame:
- La funzione di legame nei GLM determina come il valore atteso della
risposta è collegato alla combinazione lineare dei predittori. La scelta
della funzione di legame influenza i residui.
- Nei LM, la funzione di legame è identità, e i residui riflettono
semplicemente la differenza tra i valori osservati e quelli
previsti.
Esempio di Calcolo dei Residui in un Modello
GLM:
suppressWarnings({
# Carichiamo un dataset di esempio in R con una distribuzione di Poisson
data(faithful, package = "datasets")
# Creiamo un modello di Poisson
modello_poisson <- glm(eruptions ~ waiting, family = poisson, data = faithful)
# Calcoliamo i residui devianti
residui_devianti <- residuals(modello_poisson, type = "deviance")
# Visualizziamo i primi 10 residui devianti
head(residui_devianti)
})
1 2 3 4 5 6
-0.2147663 -0.2970575 -0.1293332 -0.2561309 -0.0479040 0.3822210
I residui devianti riflettono le differenze tra i valori osservati e
quelli previsti in termini della devianza del modello. Un residuo
deviante elevato indica che l’osservazione contribuisce in modo
significativo alla devianza complessiva del modello, indicando
un’eventuale influenza o deviazione dal modello.
- Residui positivi indicano che l’osservazione ha contribuito più del
previsto alla devianza.
- Residui negativi indicano che l’osservazione ha contribuito meno del
previsto alla devianza.
- Residui pari a zero indicano una perfetta adattabilità
dell’osservazione al modello.
Esempio:
Per questo esempio, useremo il dataset di esempio “mtcars” di R per
creare un modello di Poisson utilizzando un modello generalizzato
lineare (GLM). Lo scopo del modello sarà prevedere il numero di cilindri
(“cyl”) in base alle altre variabili presenti nel dataset.
# Caricamento del dataset "mtcars"
data(mtcars)
# Esploriamo le prime righe del dataset
head(mtcars)
# Creiamo un modello di Poisson per prevedere il numero di cilindri in base alle altre variabili
modello_glm <- glm(cyl ~ mpg + disp + hp + drat + wt + qsec + vs + am + gear + carb,
data = mtcars, family = poisson)
# Visualizziamo il summary del modello
summary(modello_glm)
Call:
glm(formula = cyl ~ mpg + disp + hp + drat + wt + qsec + vs +
am + gear + carb, family = poisson, data = mtcars)
Deviance Residuals:
Min 1Q Median 3Q Max
-0.42777 -0.16289 0.01851 0.15996 0.40340
Coefficients:
Estimate Std. Error z value Pr(>|z|)
(Intercept) 3.1253653 2.3664672 1.321 0.187
mpg -0.0058390 0.0351590 -0.166 0.868
disp 0.0006115 0.0025727 0.238 0.812
hp 0.0002488 0.0033108 0.075 0.940
drat -0.0981988 0.2466800 -0.398 0.691
wt -0.0366284 0.3070279 -0.119 0.905
qsec -0.0406992 0.1219151 -0.334 0.739
vs -0.1092921 0.3282386 -0.333 0.739
am -0.1126824 0.3368595 -0.335 0.738
gear -0.0517634 0.2304110 -0.225 0.822
carb 0.0280157 0.1270379 0.221 0.825
(Dispersion parameter for poisson family taken to be 1)
Null deviance: 16.574 on 31 degrees of freedom
Residual deviance: 1.310 on 21 degrees of freedom
AIC: 139.97
Number of Fisher Scoring iterations: 4
# Analizziamo le variabili indipendenti
par(mfrow = c(2, 2))
plot(modello_glm)

# Eseguiamo l'analisi della varianza (ANOVA)
anova_result <- anova(modello_glm, test = "Chi")
# Visualizziamo la tabella ANOVA
print(anova_result)
Analysis of Deviance Table
Model: poisson, link: log
Response: cyl
Terms added sequentially (first to last)
Df Deviance Resid. Df Resid. Dev Pr(>Chi)
NULL 31 16.5743
mpg 1 12.2921 30 4.2822 0.0004549 ***
disp 1 1.1779 29 3.1043 0.2777770
hp 1 0.3231 28 2.7812 0.5697385
drat 1 0.3586 27 2.4225 0.5492712
wt 1 0.2091 26 2.2135 0.6475086
qsec 1 0.4558 25 1.7577 0.4996039
vs 1 0.1329 24 1.6248 0.7154335
am 1 0.2440 23 1.3808 0.6213230
gear 1 0.0221 22 1.3587 0.8817565
carb 1 0.0487 21 1.3100 0.8253848
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
# Calcoliamo l'R-squared del modello
r_squared <- 1 - (modello_glm$deviance / modello_glm$null.deviance)
cat("R-squared:", r_squared, "\n")
R-squared: 0.9209632
# Effettuiamo previsioni su nuovi dati (per esempio, le prime 5 osservazioni del dataset)
nuovi_dati <- mtcars[1:5, ]
previsioni <- predict(modello_glm, newdata = nuovi_dati, type = "response")
cat("Previsioni per le prime 5 osservazioni:\n", previsioni, "\n")
Previsioni per le prime 5 osservazioni:
5.879263 5.693355 4.305739 5.683563 7.787923
In questo esempio, abbiamo creato un modello di Poisson utilizzando
il numero di cilindri come variabile dipendente e le altre variabili del
dataset “mtcars” come variabili indipendenti. Successivamente, abbiamo
eseguito un’analisi completa del modello, compresi il summary, la
visualizzazione delle variabili indipendenti, l’analisi della varianza
(ANOVA), il calcolo dell’R-squared e la previsione su nuovi dati.
[[Torna all’ Indice]]
---
title: "Riassunto Analisi Predittiva"
output: html_notebook
author: "Simone Dinato"
date: "Data di Creazione: 2023-10-20"
version: "Versione: 0.8"
editor_options: 
  markdown: 
    wrap: sentence
---

# Introduzione

Questo documento fornisce un'ampia panoramica sul corso di Analisi Predittiva di Ca' Foscari (CT0429) dell'anno 2023/2024.
Nel corso del documento, esploreremo vari argomenti riguardanti l'Analisi Predittiva, compresi Anova, Residui, Formule, Correlazione tra variabili, Predict, l'utilizzo di più modelli, e come selezionare le variabili all'interno di un modello.

L'obiettivo di questo documento è guidarti attraverso i concetti chiave e le pratiche nell'Analisi Predittiva, con un focus sull'utilizzo del linguaggio di programmazione R per applicare queste tecniche.
Spero che questo documento ti aiuti a comprendere meglio questa materia di studio al fine di superare l'esame.

### Indice

-   [Regressione Lineare]
    -   [Analisi dei residui]
    -   [Scomposizione Somma Di Quadrati]
    -   [Predizione Ottimale]
    -   [Covarianza e Correlazione Empirica]
-   [Regressione Lineare Multipla]
    -   [Approcio Matriciale]
    -   [Interpretazione Geometrica]
    -   [Distribuzione F & Anova Table]
    -   [Modelli Nidificati]
    -   [Selezione delle variabili]
    -   [Predizioni Categoriche]
    -   [Controllo del Modello]
    -   [Transformazioni]
    -   [Multicollinearità]
    -   [Punti Influenti]
-   [Modelli Lineari Generalizzati]
    -   [Devianza]
    -   [Residui]

# Regressione Lineare

La Regressione Lineare (LR) è una tecnica statistica che viene utilizzata per studiare la relazione tra due o più variabili quantitative. Il modello di regressione lineare assume che la variabile dipendente, che si desidera predire, sia una funzione lineare delle variabili indipendenti.

Il modello di regressione lineare fa le seguenti assunzioni:

* **Linearità:** La relazione tra la variabile dipendente e le variabili indipendenti è lineare.
* **Normalità:** I residui sono distribuiti normalmente.
* **Indipendenza:** I residui sono indipendenti tra loro.
* **Eteroschedasticità:** La varianza dei residui è costante.

L'equazione del modello di regressione lineare semplice è la seguente:


$$ y = a + bx $$


dove:

* y è la variabile dipendente
* a è l'intercetta
* b è il coefficiente angolare
* x è la variabile indipendente

L'intercetta rappresenta il valore medio di y quando x è uguale a 0. Il coefficiente angolare rappresenta la variazione di y per ogni unità di variazione di x.

### Analisi dei residui

Serve a verificare se il modello soddisfa le assunzioni della regressione e per identificare eventuali pattern o problemi nei dati.

**Esempio 1:**

```{r}
# Generiamo dati casuali con residui normalmente distribuiti
set.seed(123)
x <- 1:100
y <- 2 * x + rnorm(100)

# Adattiamo un modello di regressione
model <- lm(y ~ x)

# Effettuiamo l'analisi dei residui
Residuals <- residuals(model)

# Creiamo un grafico dei residui
plot(x, Residuals, main = "Distribuzione Normale dei Residui",xlab = "X", ylab = "Residui")
abline(h = 0, col = "red")
```

In questo caso, i residui seguono una distribuzione normale, il che è un risultato ideale per un modello di regressione lineare.
Quando diciamo che i residui hanno una distribuzione normale, significa che i residui seguono una distribuzione a forma di campana, con una media di zero e una varianza costante.
Questa è un'importante assunzione nei modelli di regressione lineare, in quanto indica che gli errori casuali nel modello sono distribuiti in modo simmetrico intorno a zero e non mostrano alcun tipo di tendenza sistemica.
Se questa assunzione è soddisfatta, i test di significatività dei coefficienti del modello e le stime di intervallo di confidenza saranno affidabili.

**Esempio 2:**

```{r}
# Generiamo dati casuali con residui che seguono una distribuzione a U
set.seed(456)
x <- 1:100
y <- 2 * x^2 + rnorm(100)
y[50:60] <- y[50:60] + 10  # Introduciamo un effetto a U nei dati

# Adattiamo un modello di regressione
model <- lm(y ~ x)

# Effettuiamo l'analisi dei residui
residuals <- residuals(model)

# Creiamo un grafico dei residui
plot(x, residuals, main = "Distribuzione a U dei Residui", xlab = "X", ylab = "Residui")
abline(h = 0, col = "red")
```

In questo caso, i residui mostrano un effetto a U, indicando una violazione dell'assunzione di omoschedasticità(i residui non mostrano un aumento o una diminuzione sistematica nella dispersione al variare dei valori delle variabili indipendenti).

**Esempio 3:**

```{r}
# Generiamo dati casuali con outlier nei residui
set.seed(789)
x <- 1:100
y <- 2 * x + rnorm(100)
y[c(20, 85)] <- y[c(20, 85)] + 20  # Aggiungiamo outlier nei dati

# Adattiamo un modello di regressione
model <- lm(y ~ x)

# Effettuiamo l'analisi dei residui
residuals <- residuals(model)

# Creiamo un grafico dei residui
plot(x, residuals, main = "Presenza di Outlier nei Residui", ylab = "Residui", xlab = "X")
abline(h = 0, col = "red")
```

In questo caso, i residui mostrano la presenza di outlier evidenti, che possono influenzare in modo significativo la stima dei coefficienti del modello.
Gli outlier possono comportare problemi nei modelli statistici, specialmente nei modelli di regressione, perché possono influenzare notevolmente i risultati.
Ad esempio, possono influenzare la stima dei coefficienti del modello e rendere il modello meno affidabile.

[Torna all' [Indice]]

### Scomposizione Somma Di Quadrati

La "decomposition of sum of squares" è un concetto fondamentale nell'analisi della varianza (ANOVA) e nella regressione statistica.
Questa tecnica aiuta a scomporre la varianza totale osservata in un insieme di dati in diverse componenti, consentendo di comprendere quanto della varianza può essere attribuito a vari fattori o errori residui.
La formula chiave in questo contesto è:

$$ Varianza Totale = Varianza Spiegata + Varianza Residua $$

Dove:

-   Varianza Totale è la varianza complessiva dei dati, cioè quanto i dati variano in generale.

-   Varianza Spiegata rappresenta la varianza dovuta al modello o ai fattori esaminati (spiegati dalla variabile indipendente nel contesto della regressione).

-   Varianza Residua è la varianza non spiegata dal modello o dai fattori ed è associata all'errore residuo, ovvero la differenza tra i valori osservati e quelli previsti dal modello.

Nel contesto della regressione, puoi rappresentare la decomposizione della somma dei quadrati come segue:

$$ SST = SSR + SSE $$

-   SST (Sum of Squares Total) rappresenta la somma dei quadrati totale ed è la varianza dei dati osservati rispetto alla loro media.

-   SSR (Sum of Squares Regression) rappresenta la varianza spiegata dal modello o dalla variabile indipendente.

-   SSE (Sum of Squares Error) rappresenta la varianza residua, ossia la varianza non spiegata dal modello.

Per valutare l'efficienza del tuo modello di regressione, dovresti guardare la proporzione di questa varianza spiegata dal tuo modello (SSR).
In generale, vuoi massimizzare la proporzione spiegata e minimizzare la proporzione non spiegata (SSE).
Pertanto, punti a minimizzare SSE.

```{r}
data <- data.frame(X = c(1, 2, 3, 4, 5), Y = c(3, 5, 6, 8, 10))
mean_Y <- mean(data$Y)
SST <- sum((data$Y - mean_Y)^2)

# Adatta il modello di regressione lineare
model <- lm(Y ~ X, data = data)

# Calcola la SSR
SSR <- sum((predict(model) - mean_Y)^2)

# Calcola la SSE
SSE <- sum(model$residuals^2)

R_squared <- SSR / SST

# Equivale a fare summary(model)
R_squared
```

[Torna all' [Indice]]

### Predizione Ottimale

L'"Optimal Prediction"  riguarda la determinazione di un modello predittivo che sia il migliore possibile in termini di accuratezza nel prevedere gli eventi futuri.

L'obiettivo principale è trovare il modello che massimizza la precisione delle previsioni, minimizzando l'errore di previsione.
Ci sono vari metodi e tecniche per ottenere la predizione ottimale, a seconda del contesto e dei dati disponibili.

```{r}
# Caricamento del dataset "cars"
data(cars)

# Visualizzazione delle prime righe del dataset
head(cars)

# Dividiamo il dataset in set di addestramento e set di test
set.seed(123)  # Impostiamo un seed per la riproducibilità
sample_indices <- sample(nrow(cars), nrow(cars) * 0.7)  # 70% dati di addestramento
train_data <- cars[sample_indices, ]
test_data <- cars[-sample_indices, ]

# Adattamento di un modello di regressione lineare
model <- lm(dist ~ speed, data = train_data)

# Predizioni
predictions <- predict(model, newdata = test_data)

# Valutazione delle prestazioni
summary(model)

# Grafico dei risultati
library(ggplot2)
ggplot(data = test_data, aes(x = speed, y = dist)) +
  geom_point(color = "blue") +
  geom_smooth(method = "lm", se = FALSE, color = "red") +
  ggtitle("Predizione della Distanza di Arresto")

```

[Torna all' [Indice]]

### Covarianza e Correlazione Empirica

La covarianza e correlazione empirica sono misure statistiche utilizzate per quantificare la relazione tra due variabili in un insieme di dati osservati.
Queste misure sono strettamente legate e sono spesso utilizzate per esaminare la relazione lineare tra due variabili.

**Covarianza Empirica:**

La covarianza empirica è una misura della tendenza di due variabili a variare insieme.
Indica se le due variabili crescono o diminuiscono simultaneamente (covarianza positiva) o se una aumenta mentre l'altra diminuisce (covarianza negativa).
La formula per calcolare la covarianza empirica tra due variabili X e Y in un set di dati è data da:

$$  Cov(X,Y) = \frac{1}{n-1} \sum_{i = 1}^n {(X_i - \overline{X})(Y_i - \overline{Y})} $$

**Correlazione Empirica:**

La correlazione empirica è una versione standardizzata della covarianza empirica e misura la forza e la direzione di una relazione lineare tra due variabili.
La correlazione empirica è sempre compresa tra -1 e 1.
La formula per calcolare la correlazione empirica tra due variabili X e Y è data da:

$$  Cor(X,Y) = \frac{Cov(X,Y)}{S_X \cdot S_Y} $$

Le misure di covarianza empirica e correlazione empirica sono utilizzate per esaminare la relazione tra variabili in un set di dati e sono particolarmente utili nell'analisi statistica e nell'apprendimento automatico per valutare le associazioni tra le variabili prima di costruire modelli predittivi.
La correlazione empirica è più comunemente utilizzata perché fornisce una misura standardizzata della relazione tra variabili ed è meno influenzata dall'unità di misura.

Il coefficiente di Pearson è utile per vedere se due variabili hanno una correlazione lineare o meno.
Questo perché non tutte le variabili correlate hanno una relazione lineare.

Esempio:

```{r}
# Esempio dati casuali
set.seed(123)
x <- rnorm(100)  # Variabile x
y <- 2 * x + rnorm(100)  # Variabile y (correlata a x)

# Calcola la correlazione di Pearson
correlation <- cor(x, y)

# Stampa il valore di correlazione
cat("Correlazione di Pearson tra x e y:", correlation, "\n")
```

In questo esempio, stiamo generando dati casuali per le variabili x e y.
La variabile y è costruita come una trasformazione lineare di x con un termine di errore aggiunto.
Poi, utilizziamo la funzione cor() per calcolare la correlazione di Pearson tra x e y.

Un valore vicino a 1 indica una correlazione lineare positiva forte, un valore vicino a -1 indica una correlazione lineare negativa forte, mentre un valore vicino a 0 indica una scarsa correlazione lineare tra le due variabili.

[Torna all' [Indice]]

# Regressione Lineare Multipla

La "Multiple Linear Regression" (Regressione Lineare Multipla) è una tecnica di modellazione statistica utilizzata per analizzare la relazione tra una variabile dipendente (o target) e due o più variabili indipendenti (o predittive).
Questa tecnica estende la semplice regressione lineare, che coinvolge solo una variabile indipendente, a un contesto in cui più variabili indipendenti sono coinvolte nel modello.
La regressione lineare multipla è ampiamente utilizzata nell'analisi statistica e nell'apprendimento automatico per fare previsioni o comprendere le relazioni complesse tra variabili.

$$ Y = \beta_0 + \beta_1X_1 + ... + \beta_nX_n + \epsilon $$ L'obiettivo principale è stimare i coefficienti β in modo che il modello si adatti meglio ai dati osservati.
Questo viene fatto utilizzando metodi di stima, come il metodo dei minimi quadrati, che cerca di minimizzare la somma dei quadrati degli errori residui.
Il modello di regressione viene valutato utilizzando metriche di valutazione delle prestazioni come l'errore quadratico medio (RMSE), il coefficiente di determinazione (R-squared) e altri.
È importante eseguire test di significatività statistica per i coefficienti delle variabili indipendenti per determinare se esse contribuiscono significativamente al modello.

La regressione lineare multipla è basata su alcune assunzioni, tra cui l'indipendenza degli errori, l'omoschedasticità (varianza costante degli errori), la linearità della relazione e la normalità degli errori.

```{r}
# Carica il dataset mtcars
data(mtcars)

# Visualizza le prime righe del dataset
head(mtcars)

# Adattamento del modello di regressione lineare multipla
model <- lm(mpg ~ wt + hp + qsec, data = mtcars)

# Visualizza un riepilogo del modello
summary(model)
```

In sintesi, il modello di regressione lineare multipla suggerisce che il peso del veicolo influenza il consumo di carburante.
La potenza del motore e il tempo di accelerazione non sono significative per la spiegazione di questo modello.
Nonostante ciò il modello spiega l'83% dei della variazione nei consumi di carburante.

[Torna all' [Indice]]

### Approcio Matriciale

L'approccio matriciale alla regressione è una forma alternativa di rappresentazione e risoluzione dei modelli di regressione, inclusa la regressione lineare.
Questo approccio utilizza notazioni matematiche e matrici per semplificare i calcoli e ottenere soluzioni più efficienti in problemi di regressione lineare.

Ci permette di passare da: $$ Y = \beta_0 + \beta_1X_1 + ... + \beta_nX_n + \epsilon $$ a : $$ Y = \beta X + \epsilon   $$

La soluzione matriciale per stimare i coefficienti β é: $$ \beta = ((X^T X)^{-1} X^T Y) $$

L'approccio matriciale semplifica la rappresentazione e la risoluzione dei modelli di regressione, specialmente quando si lavora con più variabili indipendenti.
Inoltre, è utile per comprendere come eseguire calcoli di regressione in modo più efficiente utilizzando matrici e algebra lineare, specialmente in contesti di apprendimento automatico in cui le dimensioni dei dati possono essere elevate.

```{r}
# Carica il dataset "swiss" (un dataset di dati demografici svizzeri)
data(swiss)

# Visualizza le prime righe del dataset
head(swiss)

# Crea la matrice delle variabili indipendenti
X <- as.matrix(swiss[, c("Examination", "Education")])

# Aggiungi una colonna di 1 per l'intercetta
X <- cbind(1, X)

# Crea il vettore delle variabili dipendenti
Y <- swiss$Fertility

# Calcola i coefficienti del modello utilizzando l'approccio matriciale
beta <- solve(t(X) %*% X) %*% t(X) %*% Y

# Visualizza i coefficienti del modello
print(beta)

# Effettua previsioni con il modello matriciale
predictions <- X %*% beta

# Valuta le prestazioni del modello
model <- lm(Y ~ Examination + Education, data = swiss)  # 0 indica di non calcolare l'intercetta
summary(model) 
```

-   Esame (Examination): Un aumento nei punteggi di esame è associato a una diminuzione della fertilità nelle regioni svizzere. Questo suggerisce che un migliore stato di salute generale, misurato tramite l'esame, è correlato a una fertilità più bassa.
-   Educazione (Education): Un aumento nel livello di educazione è correlato a una riduzione della fertilità. Le regioni con un livello di istruzione più elevato tendono ad avere una fertilità più bassa.

[Torna all' [Indice]]

### Interpretazione Geometrica

L'interpretazione geometrica della regressione lineare è un approccio concettuale che utilizza uno spazio tridimensionale (o superiore) per rappresentare visivamente il modello di regressione.
In questo spazio, ogni punto rappresenta un'osservazione nel dataset, e un piano (o iperpiano) rappresenta il modello di regressione.
L'obiettivo è trovare il piano (o iperpiano) che minimizza la somma dei quadrati delle distanze verticali tra i punti dati e il piano (o iperpiano).
Questo fornisce una visualizzazione intuitiva di come i coefficienti del modello vengono stimati per ottenere la migliore "ajustement" ai dati, minimizzando gli errori residui.
L'interpretazione geometrica aiuta a comprendere i principi fondamentali della regressione lineare e può essere applicata a problemi più complessi con più variabili indipendenti.

````{r, warning=FALSE}
library(knitr)
library(plotly)

# Genera dati casuali
set.seed(123)
n <- 50
X1 <- rnorm(n)
X2 <- rnorm(n)
Y <- 2 * X1 + 3 * X2 + rnorm(n)

# Crea un dataframe con le variabili
data <- data.frame(X1, X2, Y)

# Adatta il modello di regressione lineare
model <- lm(Y ~ X1 + X2, data = data)
summary(model)

# Creazione di una griglia di punti
x1_range <- seq(min(X1), max(X1), length = 20)
x2_range <- seq(min(X2), max(X2), length = 20)
grid <- expand.grid(X1 = x1_range, X2 = x2_range)

# Calcolo delle previsioni del modello sulla griglia
grid$Y_pred <- predict(model, newdata = grid)

# Creazione del plot 3D con plotly
 plot_ly(data, x = ~X1, y = ~X2, z = ~Y, type = "scatter3d", mode = "markers", marker = list(size = 5, color = "blue")) %>%
   add_surface(
     x = x1_range,
     y = x2_range,
     z = matrix(grid$Y_pred, nrow = length(x1_range), ncol = length(x2_range), byrow = TRUE),
     colors = "red",
     opacity = 0.7
   ) %>%
   layout(scene = list(xaxis = list(title = "X1"), yaxis = list(title = "X2"), zaxis = list(title = "Y")))

````

L'interpretazione geometrica ci consente di vedere come il piano di regressione si adatta ai dati nello spazio tridimensionale e come i coefficienti stimati influenzano la posizione e l'inclinazione del piano rispetto ai dati osservati.
Questo fornisce una visualizzazione intuitiva della relazione tra le variabili indipendenti e dipendenti nel contesto della regressione lineare.

[Torna all' [Indice]]

### Distribuzione F & Anova Table {#distribuzione-f-anova-table}

L'ANOVA valuta globalmente se almeno una delle variabili indipendenti ha un effetto significativo sulla variabile dipendente, fornisce una statistica F e il relativo p-value. 
Un p-value basso suggerisce che almeno una delle variabili indipendenti è significativa nel modello.
L'ANOVA fornisce quindi una visione complessiva della significatività del modello nel suo complesso.

L'analisi della varianza (ANOVA) e i "signif. codes" nel summary del modello forniscono informazioni simili, ma si concentrano su aspetti diversi dell'analisi.

I "signif. codes" nel summary del modello forniscono una valutazione variabile per variabile, indicando la significatività statistica di ciascun coefficiente.
Utilizza asterischi (\*) o altri simboli per indicare il livello di significatività, ad esempio, "\*\*\*" potrebbe indicare un livello di significatività molto elevato (p-value molto basso), mentre " " (spazio) potrebbe indicare non significativo.
Questa parte del summary fornisce una visione più dettagliata sulla significatività di ciascuna variabile indipendente separatamente.

L'ANOVA valuta la significatività del modello nel suo insieme, mentre i "signif. codes" nel summary forniscono una visione dettagliata della significatività di ciascuna variabile indipendente.

**Esempio 1:**

```{r}
# Creiamo un dataset fittizio
set.seed(123)
data <- data.frame(
  Gruppo = rep(c("A", "B", "C"), each = 20),
  Punteggio = rnorm(60, mean = c(70, 75, 80), sd = 5)
)

# Eseguiamo l'ANOVA
anova_result <- aov(Punteggio ~ Gruppo, data = data)

# Visualizziamo la tabella ANOVA
summary(anova_result)
```

In questo esempio, eseguiamo un'ANOVA a un fattore per valutare le differenze nei punteggi tra i gruppi A, B e C.
Il rapporto F e il valore p ci permettono di determinare se le differenze tra i gruppi sono statisticamente significative.

I risultati suggeriscono che non ci sono differenze statisticamente significative tra i gruppi, ossia il variare del gruppo non influenza significativamente la variabile dipendente.
La varianza tra i gruppi è molto piccola rispetto alla varianza all'interno dei gruppi, e il test F non è significativo.
Questo può indicare che i gruppi sono simili tra loro per quanto riguarda la variabile in studio.

**Esempio 2:**

```{r}
# Creiamo un dataset fittizio
set.seed(123)
data <- data.frame(
  Genere = rep(c("Maschio", "Femmina"), each = 50),
  Trattamento = rep(c("A", "B"), times = 50),
  Punteggio = rnorm(100, mean = c(75, 80), sd = 5)
)

# Eseguiamo l'ANOVA a due fattori
anova_result <- aov(Punteggio ~ Genere * Trattamento, data = data)

# Visualizziamo la tabella ANOVA
summary(anova_result)
```

In questo esempio, eseguiamo un'ANOVA a due fattori per esaminare le differenze nei punteggi in base al genere e al trattamento.

Dalla tabella dell'ANOVA fornita, possiamo trarre le seguenti conclusioni:

-   Il fattore "Trattamento" ha un forte effetto sulla variabile dipendente, con un valore di F elevato e un p-value molto basso, indicando che le differenze tra i trattamenti sono statisticamente significative (\*\*\*).
-   Il fattore "Genere" non ha un effetto significativo sulla variabile dipendente, con un valore di F basso e un p-value elevato.
-   L'interazione tra "Genere" e "Trattamento" non ha un effetto significativo sulla variabile dipendente, con un valore di F e un p-value non significativi.

I risultati dell'ANOVA suggeriscono che il "Trattamento" è il principale driver delle differenze osservate nella variabile dipendente, mentre il "Genere" e l'interazione tra "Genere" e "Trattamento" non sembrano avere un effetto significativo.

-   Un valore F maggiore di 1 suggerisce che i parametri o i fattori sono significativi, poiché la varianza spiegata è maggiore della varianza non spiegata.
-   Un valore F vicino a 1 indica che il modello non spiega in modo significativo la variabilità nei dati.
-   Il valore p associato all'F-value fornisce la probabilità che i risultati osservati siano dovuti al caso. Un valore p basso (di solito inferiore a 0.05) indica una significatività elevata, mentre un valore p alto suggerisce una mancanza di significatività.

**Sistema di ipotesi:**

Nell'analisi statistica in cui si calcola un valore F, ci sono due ipotesi principali: l'ipotesi nulla (H0) e l'ipotesi alternativa (H1).

Ipotesi Nulla (H0): L'ipotesi nulla afferma che non ci sono differenze significative tra i gruppi o i fattori considerati.
In altre parole, l'ipotesi nulla sostiene che i parametri del modello o i fattori non hanno un effetto significativo sul risultato o che le differenze osservate sono casuali.

Ipotesi Alternativa (H1 o HA): L'ipotesi alternativa è il contrario dell'ipotesi nulla.
Sostiene che ci sono differenze significative tra i gruppi o i fattori considerati, e che le differenze osservate non sono casuali, ma sono dovute a un effetto significativo dei parametri del modello o dei fattori.

Continuiamo l'esempio di prima:

```{r}
model <- lm(Punteggio ~ Genere * Trattamento, data = data)
summary(model)

# Estraiamo il valore p
p_value <- anova_summary[[1]][["Pr(>F)"]][3]  # Usiamo [3] per estrarre il valore relativo all'interazione


# Scegliamo un livello di significatività (alpha)
alpha <- 0.05

# Valutiamo se rifiutare l'ipotesi nulla
if (p_value < alpha) {
  cat("Rifiutiamo l'ipotesi nulla. Ci sono differenze significative tra i gruppi.\n")
} else {
  cat("Non rifiutiamo l'ipotesi nulla. Non ci sono differenze significative tra i gruppi.\n")
}
```

La F-statistic nel summary di un modello lineare (lm) rappresenta la statistica del test F per l'intero modello. Questo test verifica se c'è almeno una variabile indipendente nel modello che è significativamente associata alla variabile dipendente. In altre parole, valuta l'ipotesi nulla che tutti i coefficienti delle variabili indipendenti nel modello siano uguali a zero (cioè che non ci siano effetti).

In breve la F-statistic suggerisce che almeno una delle interazioni tra "Genere" e "Trattamento" o almeno una delle principali effetti è significativa nel modello.

[Torna all' [Indice]]

### Modelli Nidificati

Nei modelli statistici, un "nested model" si verifica quando un modello più complesso o generale può essere suddiviso o semplificato in un modello più semplice o specifico.
Il modello più semplice è considerato "nidificato" all'interno del modello più complesso, poiché contiene un sottoinsieme di parametri o vincoli del modello più generale.

Nel contesto della regressione, i modelli nidificati sono spesso utilizzati per testare l'aggiunta di variabili indipendenti al modello al fine di valutare se le variabili aggiuntive migliorano significativamente la capacità di previsione o spiegazione del modello.
I modelli nidificati sono anche utilizzati in contesti come l'analisi della varianza (ANOVA), l'analisi della devianza nei modelli lineari generalizzati (che vedremo più avanti) e altre procedure statistiche.

Esempio di Modelli di Regressione Nidificati:

Supponiamo di voler creare un modello di regressione per prevedere il reddito di una persona basandoci su quattro variabili indipendenti: età, istruzione, esperienza lavorativa e genere.
Il modello completo potrebbe essere:

**Modello Completo**

$$ Reddito = \beta_0 + \beta_1 \cdot Età + \beta_2 \cdot Istruzione + \beta_3 \cdot Esperienza + \beta_4 \cdot Genere $$ Tuttavia, potremmo essere interessati a valutare se l'aggiunta della variabile "genere" migliora significativamente la capacità predittiva del modello.
In tal caso, il modello senza "genere" è nidificato all'interno del modello completo:

**Modello Nidificato**

$$ Reddito' = \beta_0 + \beta_1 \cdot Età + \beta_2 \cdot Istruzione + \beta_3 \cdot Esperienza $$

In questo esempio, il Modello 1 è il modello completo e il Modello 2 è il modello nidificato senza il parametro per "genere".
Valutiamo tramite un ANOVA quale dei due modelli sia considerato più significativo.


```{r}
# Creiamo dati fittizi
set.seed(123)
n <- 100
eta <- rnorm(n, mean = 35, sd = 5)
istruzione <- rnorm(n, mean = 12, sd = 2)
esperienza <- rnorm(n, mean = 10, sd = 3)
genere <- sample(c("Maschio", "Femmina"), n, replace = TRUE)
reddito <- 20 + 2 * eta + 3 * istruzione + 5 * esperienza + ifelse(genere == "Maschio", 4, 0) + rnorm(n, mean = 0, sd = 5)

# Creiamo un dataframe con i dati
data <- data.frame(eta, istruzione, esperienza, genere, reddito)

# Modello completo
modello_completo <- lm(reddito ~ eta + istruzione + esperienza + genere, data = data)

# Modello nidificato senza "genere"
modello_nidificato <- lm(reddito ~ eta + istruzione + esperienza, data = data)

# Test F per confrontare i modelli
anova_result <- anova(modello_nidificato, modello_completo)

# Visualizziamo la tabella ANOVA
print(anova_result)

# Scegliamo un livello di significatività (alpha)
alpha <- 0.05

# Valutiamo se rifiutare l'ipotesi nulla
if (anova_result[2, "Pr(>F)"] < alpha) {
  cat("La rimozione di 'genere' non migliora significativamente il modello.\n")
} else {
  cat("La rimozione di 'genere' migliora significativamente il modello.\n")
}

# R Squared dei due modelli
print("Modello completo ") 
summary(modello_completo)$r.squared
print("Modello annidato ")
summary(modello_nidificato)$r.squared
```

[Torna all' [Indice]]

### Selezione delle variabili

La "variable selection" è un processo attraverso il quale si scelgono le variabili più rilevanti da includere in un modello statistico.
Questo processo è utile per semplificare i modelli, migliorare la capacità predittiva e la comprensione dei dati, ridurre l'overfitting e aumentare l'efficienza computazionale.

Un metodo comune per la selezione delle variabili in R coinvolge l'utilizzo dell'Information Criterion (Criterio d'Informazione) di Akaike (AIC) insieme alla funzione step().

**AIC (Akaike's Information Criterion):**

Il Criterio d'Informazione di Akaike (AIC) è una metrica che misura la qualità di un modello statistico.
L'obiettivo dell'AIC è trovare il miglior compromesso tra la bontà di adattamento del modello ai dati e la sua complessità.
L'AIC tiene conto della funzione di verosimiglianza del modello e penalizza i modelli con un numero maggiore di parametri.
L'AIC è definito come:

$$ AIC = -2logLikelihood + 2k $$

Dove:

-   "log-likelihood" è il logaritmo della funzione di verosimiglianza del modello.
-   "k" è il numero di parametri stimati nel modello. Un valore AIC più basso indica un modello migliore, in quanto indica un migliore adattamento ai dati con meno complessità.

**Funzione step():**

La funzione step() in R è utilizzata per effettuare la selezione delle variabili basata su criteri come l'AIC.
Consente di confrontare e selezionare i modelli in modo automatico aggiungendo o rimuovendo variabili dal modello, fino a trovare il modello con l'AIC più basso.
La sintassi di base della funzione step() è la seguente:

```{r}
#step(modello_iniziale, direction = "both", scope = list(lower = modello_minimo, upper = modello_massimo))
```

-   modello_iniziale è il modello di partenza che desideri semplificare o migliorare.
-   direction può essere "forward", "backward", o "both" e specifica se aggiungere, rimuovere o entrambi i tipi di variabili durante la selezione.
-   scope specifica l'intervallo dei modelli da considerare durante la selezione. Il - "modello_minimo" rappresenta il modello più semplice possibile (ad esempio, un modello con solo l'intercetta), mentre il "modello_massimo" rappresenta il modello più complesso (il modello completo con tutte le variabili).

```{r}
# Carica il dataset di esempio
data(mtcars)

# Crea un modello lineare iniziale
all <- lm(mpg ~ ., data = mtcars)

# Esegui la selezione delle variabili basata su AIC
best <- step(all, direction = "backward")
```

In questo esempio, partiamo da un modello lineare completo che utilizza tutte le variabili di mtcars, e poi utilizziamo step() per eseguire la selezione delle variabili basata su AIC.
Alla fine, otteniamo il modello con l'AIC più basso, che dovrebbe essere una versione semplificata del modello iniziale con solo le variabili più rilevanti.

La "variable selection" utilizzando AIC e step() è un potente strumento per migliorare la qualità e l'interpretabilità dei modelli statistici, in particolare quando si hanno molti potenziali predittori.

[Torna all' [Indice]]

### Predizioni Categoriche

Nell'analisi statistica, i "categorical predictors" sono variabili che rappresentano categorie o gruppi distinti anziché valori numerici.
Queste variabili sono anche conosciute come variabili qualitative o fattori.
Ad esempio, il genere (maschio/femmina), il livello di istruzione (scuola elementare, scuola media, laurea), o il tipo di prodotto (A, B, C) sono esempi di predittori categorici.
Quando si utilizzano predittori categorici in un modello statistico, è importante considerare come gestire e interpretare questi dati.

Una considerazione fondamentale è come rappresentare le variabili categoriche nel modello.
Solitamente, vengono utilizzate delle variabili dummy (variabili indicatrici) per rappresentare le categorie.
Ad esempio, nel caso del genere (maschio/femmina), potrebbero essere create due variabili dummy, una per il maschio e una per la femmina.
Queste variabili dummy prendono il valore 1 o 0 a seconda dell'appartenenza alla categoria.
Questo approccio consente al modello di catturare l'effetto della categoria sulla variabile dipendente.

Oltre alla rappresentazione delle variabili categoriche, è importante considerare le interazioni tra i predittori.
Le interazioni si verificano quando l'effetto di una variabile categorica sul risultato dipende da un'altra variabile.
Ad esempio, l'effetto del livello di istruzione sul reddito potrebbe variare in base al genere.
In questo caso, c'è un'interazione tra il livello di istruzione e il genere.

Per esaminare le interazioni tra predittori categorici, è possibile utilizzare l'analisi della varianza (ANOVA) o i modelli lineari generalizzati (che vedremo più avanti).
Le interazioni possono fornire informazioni preziose sull'influenza combinata delle variabili categoriche sul risultato.

```{r}
# Creiamo dati fittizi
set.seed(123)
n <- 100
genere <- sample(c("Maschio", "Femmina"), n, replace = TRUE)
istruzione <- rep(c("Elementare", "Media", "Laurea"), length.out = n )
reddito <- 30 + ifelse(genere == "Maschio", 5, 0) + ifelse(istruzione == "Laurea", 10, 0) + rnorm(n, mean = 0, sd = 5)

# Creiamo un dataframe con i dati
data <- data.frame(genere, istruzione, reddito)

# Modello con interazione tra genere e istruzione
modello <- lm(reddito ~ genere * istruzione, data = data)

# Visualizziamo i risultati
summary(modello)
anova(modello, test = "chi")

# Grafico reddito per soli maschi e sole femmine
ggplot(data = data, aes(x = istruzione, y = reddito, fill = genere)) +
  geom_boxplot() +
  labs(x = "Istruzione", y = "Reddito")
```

In questo esempio, stiamo creando dati fittizi con due predittori categorici: "genere" e "istruzione".
Il modello lineare include un'interazione tra questi due predittori.
La tabella dei risultati summary(modello) mostra come i predittori categorici e l'interazione influenzano il reddito.

Possiamo concludere che il genere e il livello di istruzione hanno un effetto significativo sul reddito, mentre le interazioni tra genere e istruzione non sono significative in questo modello.
Il modello nel suo complesso è significativo e in grado di spiegare una parte della variazione nel reddito.

**Fattori con più di due categorie:**

Quando si affrontano fattori con più di due livelli (categorie), è necessario considerare come gestire queste variabili nel modello.
In generale, un fattore con k livelli richiede la creazione di k-1 variabili dummy per evitare la "dummy variable trap".
Questo si verifica quando le variabili dummy sono linearmente dipendenti e possono portare a problemi di multicollinearità.

Ad esempio, se abbiamo una variabile "colore" con tre livelli (rosso, verde, blu), dovremmo creare due variabili dummy per rappresentarla.
Una rappresenterà il rosso e l'altra il verde.
Se entrambe le variabili dummy sono uguali a 0, ciò significa che il colore è blu.
Questo evita la trap della variabile dummy.

```{r}
# Creiamo dati fittizi
set.seed(123)
n <- 100
colore <- rep(c("Rosso", "Verde", "Blu"), length.out = n )
voto <- rnorm(n, mean = 50, sd = 10)

# Creiamo un dataframe con i dati
data <- data.frame(colore, voto)

# Modello con un fattore con più di due livelli
modello <- lm(voto ~ colore, data = data)

# Visualizziamo i risultati
summary(modello)
```

I risultati indicano che il colore del prodotto (rosso o verde) non ha un impatto significativo sul voto.
L'intercetta, che rappresenta il colore "Blu," è significativa, ma il modello nel suo insieme non è molto efficace nel spiegare la variazione nei voti.

[Torna all' [Indice]]

### Controllo del Modello

Il Model Checking è una fase cruciale nell'analisi statistica, specialmente quando si adotta un modello di regressione.
Durante questa fase, si valuta se il modello soddisfa le principali assunzioni dei modelli lineari.
Le quattro assunzioni principali da verificare sono:

-   **L**inearity (Linearità): Questa assunzione afferma che la risposta (variabile dipendente) può essere scritta come una combinazione lineare delle variabili predittive (variabili indipendenti). In altre parole, il modello dovrebbe essere in grado di catturare il rapporto tra le variabili in modo lineare, con un certo grado di rumore residuo. La linearità può essere verificata attraverso grafici di dispersione o grafici residui.
-   **I**ndependence (Indipendenza): Questa assunzione richiede che gli errori (residui) del modello siano indipendenti l'uno dall'altro. Ciò significa che il valore di errore per un'osservazione non è influenzato dal valore di errore per un'altra osservazione. L'indipendenza può essere verificata osservando i grafici dei residui in sequenza temporale o spaziale, a seconda del contesto.
-   **N**ormality (Normalità): L'assunzione di normalità richiede che i residui del modello seguano una distribuzione normale. Questo è importante perché molte procedure statistiche si basano sull'ipotesi di normalità dei residui. La normalità può essere verificata tramite grafici quantile-quantile (QQ plot) o istogrammi dei residui.
-   **E**qual Variance (Varianza Uniforme): Questa assunzione, chiamata anche omoschedasticità, richiede che la varianza dei residui sia costante in tutti i livelli delle variabili predittive. In altre parole, non dovrebbe esserci alcun modello discernibile nella varianza dei residui. La varianza uniforme può essere verificata osservando i grafici dei residui rispetto ai valori predetti.

Per verificare queste assunzioni, i Residuals-based displays (grafici basati sui residui) sono spesso utilizzati.
Questi includono:

-   Scatterplot dei residui: Un grafico dei residui contro i valori previsti o le variabili predittive. Questo può rivelare se c'è una struttura non lineare nei residui.
-   Grafico di sequenza temporale dei residui: Utilizzato quando i dati sono raccolti nel tempo, questo grafico può rivelare dipendenze temporali nei residui.
-   QQ-plot (Quantile-Quantile plot): Questo grafico confronta i quantili dei residui con quelli di una distribuzione normale. Se i punti del grafico seguono una linea retta, i residui sono approssimativamente normali.
-   Istogramma dei residui: Un istogramma dei residui può dare un'idea della loro distribuzione e normalità.

Rispettare queste assunzioni è importante per garantire che le stime del modello siano affidabili e che le conclusioni siano valide.
Se una o più di queste assunzioni non sono soddisfatte, potrebbero essere necessarie correzioni al modello o ai dati stessi.

[Torna all' [Indice]]

### Transformazioni

Le trasformazioni sono una tecnica utilizzata nella modellazione statistica per modificare le relazioni tra variabili al fine di soddisfare meglio le assunzioni del modello.
Le trasformazioni possono essere utili quando le relazioni tra le variabili non sono lineari o quando le assunzioni di omoschedasticità o normalità dei residui non sono soddisfatte.
Di seguito, affrontiamo i seguenti argomenti relativi alle trasformazioni:

-   Variance Stabilizing Transformations (Trasformazioni per Stabilizzare la Varianza): In alcuni casi, la varianza dei dati può variare in modo non costante con il cambiare del valore medio.
    Questo fenomeno è noto come eteroschedasticità.
    Le trasformazioni possono essere utilizzate per stabilizzare la varianza, rendendo la relazione tra il valore medio e la varianza più costante.
    Un esempio comune è la trasformazione di Box-Cox.

-   Box-Cox Transform: La trasformazione di Box-Cox è una tecnica utilizzata per stabilizzare la varianza e rendere i dati approssimativamente normali.
    È definita come:

$$ 
y(\lambda) = \begin{cases} \frac{(y^\lambda - 1)}{\lambda} & \text{se } \lambda \neq 0 \\
    \log(y) & \text{se } \lambda = 0
\end{cases}
$$

Dove y sono i dati originali e λ è il parametro di trasformazione.
È possibile calcolare il valore ottimale di λ che massimizza la normalità dei dati.

```{r}
library(ggplot2)
library(MASS)
library(gridExtra)

# Genera dati casuali
set.seed(123)
data <- data.frame(y = rgamma(100, shape = 2, scale = 1))

# Applica la trasformazione di Box-Cox
result <- boxcox(y ~ 1, data = data)
lambda <- result$x[which.max(result$y)]
transformed_data <- if (lambda == 0) log(data$y) else ((data$y^lambda - 1) / lambda)

# Visualizza il valore ottimale di lambda
cat("Valore ottimale di lambda: ", lambda, "\n")

# Crea un dataframe con i dati originali e trasformati
plot_data <- data.frame(Original = data$y, Transformed = transformed_data)

# Plotta i dati originali
plot_original <- ggplot(plot_data, aes(x = Original)) +
  geom_histogram(binwidth = 0.5, fill = "blue", alpha = 0.7) +
  labs(title = "Distribuzione dei dati originali")

# Plotta i dati trasformati
plot_transformed <- ggplot(plot_data, aes(x = Transformed)) +
  geom_histogram(binwidth = 0.1, fill = "green", alpha = 0.7) +
  labs(title = "Distribuzione dei dati trasformati")

# Mostra i grafici sulla stessa riga
grid.arrange(plot_original, plot_transformed, ncol = 2)
```

-   Polynomials (Polinomi): Le trasformazioni polinomiali consentono di modellare relazioni non lineari tra variabili. È possibile aggiungere termini polinomiali al modello di regressione per catturare curve o relazioni più complesse. Ad esempio, si possono utilizzare polinomi di secondo grado per modellare una relazione quadratica tra una variabile indipendente e la variabile dipendente. L'aggiunta di termini polinomiali può migliorare l'adattamento del modello ai dati, ma è importante evitare di aggiungere troppi termini polinomiali per evitare l'overfitting.

```{r}
# Modello lineare con un termine polinomiale di secondo grado
model <- lm(y ~ x + I(x^2), data = data)
```

-   Transformations of Predictor Variables (Trasformazioni delle Variabili Predittive): Le trasformazioni delle variabili predittive sono utilizzate per adattare i dati in modo che soddisfino meglio le assunzioni del modello. Queste trasformazioni coinvolgono la modifica delle variabili indipendenti piuttosto che della variabile dipendente. Possono essere utilizzate per rendere le relazioni tra le variabili più lineari o per stabilizzare la varianza. Ad esempio, è possibile applicare una trasformazione logaritmica o una radice quadrata a una variabile predittiva per renderla più lineare nei confronti della variabile dipendente.

```{r}
# Creiamo dati fittizi
set.seed(123)
X <- rnorm(100, mean = 10, sd = 2)
Y <- 2 * X + rnorm(100, mean = 0, sd = 1)

# Creiamo un dataframe con i dati
data <- data.frame(X, Y)

# Modello lineare senza trasformazione
model_no_transform <- lm(Y ~ X, data = data)

# Visualizziamo il summary del modello senza trasformazione
summary(model_no_transform)

# Trasformiamo la variabile X applicando il logaritmo
data$X_transformed <- log(data$X)

# Modello lineare con la variabile X trasformata
model_with_transform <- lm(Y ~ X_transformed, data = data)

# Visualizziamo il summary del modello con la variabile X trasformata
summary(model_with_transform)
```

Le trasformazioni sono strumenti potenti per adattare i modelli ai dati in modo più accurato quando le relazioni tra variabili non sono lineari o quando le assunzioni del modello non sono soddisfatte.
Tuttavia, è importante scegliere con attenzione le trasformazioni per evitare il sovradattamento e garantire che i risultati siano interpretabili.

[Torna all' [Indice]]

### Multicollinearità

La multicollinearità si verifica quando due o più variabili indipendenti in un modello di regressione sono fortemente correlate tra loro.
Questa correlazione tra le variabili indipendenti può rendere difficile l'interpretazione del modello e portare a stime poco affidabili dei coefficienti di regressione.
La presenza di multicollinearità può causare un aumento del Variance Inflation Factor (VIF), una misura comune utilizzata per valutare la multicollinearità tra le variabili indipendenti in un modello di regressione.
Un alto VIF per una variabile indica che quella variabile è fortemente correlata con le altre variabili indipendenti nel modello.

**Variance Inflation Factor:**

Il VIF di ciascuna variabile indipendente è calcolato come il rapporto della varianza dell'errore standard del coefficiente di regressione stimato per quella variabile rispetto alla varianza dell'errore standard se la variabile fosse stata completamente non correlata alle altre variabili indipendenti.
In generale, un VIF superiore a 5 o 10 è spesso considerato un segno di multicollinearità significativa.

$$ 
VIF_i = (X^TX)_{i+1,i+1}^{-1}*ns^2_{X_i} \ \  oppure \ \ VIF_i = \frac{1}{1-R^2_i}
$$
```{r}
# Load the necessary library
library(car)

# Create a sample dataset with multiple predictor variables
set.seed(123)
data <- data.frame(
  X1 = rnorm(100),
  X2 = rnorm(100),
  X3 = rnorm(100),
  X4 = rnorm(100)
)

# Add a dependent variable (response)
data$Y <- 2 * data$X1 + 3 * data$X2 + 1.5 * data$X3 + rnorm(100)

# Fit a linear regression model
model <- lm(Y ~ X1 + X2 + X3 + X4, data = data)

# Calculate VIF
vif_values <- vif(model)

# Print the VIF values
vif_values
```

Tutti i valori VIF sono vicini a 1, il che suggerisce che non c'è una forte multicollinearità tra le variabili predittive X1, X2, X3 e X4.
Questo è un buon segno, poiché significa che le variabili non sono fortemente correlate tra loro.

Valori VIF più elevati indicano una multicollinearità più forte, e valori al di sopra di una certa soglia (ad esempio, VIF \> 5) possono suggerire la necessità di affrontare la collinearità, ad esempio, rimuovendo una delle variabili predittive correlate.

[Torna all' [Indice]]

### Punti Influenti

I punti influenti si riferiscono a osservazioni nei dati che hanno un impatto significativo sui risultati di un'analisi statistica, come una regressione lineare.
Questi punti possono influenzare la stima dei parametri del modello, i residui, i valori p, l'R-squared e altre statistiche di rilevanza.
Ci sono diverse metriche utilizzate per identificare i punti influenti, tra cui Standardized Residuals, Studentized Residuals e Cook's Distance.

-   Standardized Residuals (Residui Standardizzati): Questi sono i residui divisi per la deviazione standard dei residui. Un residuo standardizzato è una misura di quanto un punto dato si discosti dalla linea di regressione in termini di deviazioni standard. I punti con residui standardizzati molto grandi (positivi o negativi) sono considerati influenti.
-   Studentized Residuals (Residui Studentizzati): Questi sono i residui divisi per una stima della deviazione standard dell'errore residuo. I residui studentizzati sono utilizzati per valutare quanto un punto dato sia influente considerando l'effetto delle altre osservazioni nel dataset. I punti con residui studentizzati significativamente grandi in valore assoluto sono considerati influenti.
-   Cook's Distance (Distanza di Cook): Cook's Distance è una metrica che combina l'effetto di un punto sui parametri del modello e il suo effetto sui residui. I punti con Cook's Distance molto grandi sono considerati influenti. Cook's Distance è spesso utilizzato per identificare punti che, se rimossi, avrebbero un impatto significativo sui risultati del modello.

Nel contesto della regressione, i punti influenti possono derivare da outlier nei dati, dati errati o punti che influenzano notevolmente la stima dei parametri.
Identificare e trattare i punti influenti è importante per garantire che il modello di regressione sia affidabile e rappresenti accuratamente i dati.
La rimozione di punti influenti può migliorare la bontà di adattamento del modello e l'accuratezza delle previsioni.

```{r}
# Carichiamo il dataset di esempio
data(mtcars)

# Adattiamo un modello di regressione lineare
model <- lm(mpg ~ wt + hp, data = mtcars)

# Calcoliamo i residui standardizzati
standardized_residuals <- rstandard(model)

# Identifichiamo i punti influenti basati sui residui standardizzati
influential_points <- which(abs(standardized_residuals) > 2)

# Visualizziamo gli indici dei punti influenti
cat("Punti influenti basati sui residui standardizzati:", influential_points, "\n")

# Calcoliamo Cook's Distance
cook_distance <- cooks.distance(model)

# Identifichiamo i punti influenti basati su Cook's Distance
influential_points_cook <- which(cook_distance > 4 / length(cook_distance))

# Visualizziamo gli indici dei punti influenti basati su Cook's Distance
cat("Punti influenti basati su Cook's Distance:", influential_points_cook, "\n")

par(mfrow = c(1,2))
# Grafico dei punti con evidenziazione dei punti influenti
plot(mtcars$wt, mtcars$mpg, pch = 16, main = "Punti Influenti (Stan e Stud)",
     xlab = "Peso (wt)", ylab = "Miglia per gallone (mpg)")
points(mtcars$wt[influential_points], mtcars$mpg[influential_points], pch = 16, col = "red", cex = 1.5)


plot(mtcars$wt, mtcars$mpg, pch = 16, main = "Punti Influenti (Cook)",
     xlab = "Peso (wt)", ylab = "Miglia per gallone (mpg)")
points(mtcars$wt[influential_points_cook], mtcars$mpg[influential_points_cook], pch = 16, col = "red", cex = 1.5)

```

**Leverage:**

Il "Leverage" è una misura utilizzata nell'analisi dei dati statistici per identificare punti influenti o osservazioni atipiche in un modello di regressione.
Questa misura valuta quanto un'osservazione può influenzare i risultati del modello, in particolare i coefficienti di regressione.
Il leverage è calcolato sulla base delle variabili predittive e può essere utilizzato per identificare le osservazioni che hanno un impatto significativo sul modello.

Identificazione dei punti influenti: I punti con un valore di leverage significativamente più alto degli altri sono quelli che possono influenzare notevolmente il modello.
Puoi stabilire una soglia arbitraria o utilizzare metodi statistici per determinare quali punti sono influenti.
Ad esempio, i punti con leverage superiore a 2 volte la media possono essere considerati influenti.

Esame dei punti influenti: Una volta identificati i punti influenti, è possibile esaminarli ulteriormente per determinare se sono effettivamente outliers o errori di misurazione.
Potresti voler esaminare le osservazioni con elevate differenze tra i valori osservati e quelli previsti dal modello.

È importante notare che la rimozione dei punti influenti dovrebbe essere effettuata con cautela e solo se c'è una giustificazione valida.
In alcuni casi, potresti scegliere di mantenere i punti influenti nel modello se ritieni che rappresentino informazioni significative o se hanno una spiegazione plausibile.

```{r}
# Generiamo dati casuali
set.seed(123)
n <- 100
x <- rnorm(n)
y <- 2 * x + rnorm(n)

# Adattiamo un modello di regressione lineare
model <- lm(y ~ x)

# Calcoliamo i valori di leverage
leverage <- hatvalues(model)

# Identifichiamo i punti influenti
infl_points <- which(leverage > 2 * mean(leverage))

# Visualizziamo i punti influenti
print(infl_points)

par(mfrow = c(1,2))
# Plot del grafico
plot(x, y)
points(x[infl_points], y[infl_points], col = "blue", pch = 19)

# Plot del Leverage
plot(x, leverage)
points(x[infl_points], leverage[infl_points], col = "blue", pch = 19)
```

Nota che nell'esempio abbiamo utilizzato una soglia di leverage arbitraria (2 volte la media) per identificare i punti influenti.
In un'applicazione pratica, è consigliabile considerare la soglia in base al contesto del problema e all'analisi dei dati.

[Torna all' [Indice]]

# Modelli Lineari Generalizzati {#modelli-lineari-generalizzati-glm}

I GLM estendono il framework della regressione lineare per gestire un'ampia gamma di distribuzioni dei dati e tipologie di risposte.
A differenza della regressione lineare tradizionale, i GLM possono accomodare distribuzioni di errori non normali e modellare relazioni tra predittori e risposte attraverso una funzione di collegamento.

Un GLM è caratterizzato da tre componenti principali:

1.  **Componente Casuale (Distribuzione):** La variabile di risposta $Y$ segue una distribuzione di probabilità dalla famiglia esponenziale, che include distribuzioni comuni come normale, binomiale e di Poisson.

2.  **Componente Sistematica (Predittore Lineare):** La relazione tra i predittori e il valore atteso della risposta è espressa attraverso un predittore lineare ($\eta$).
    Il predittore lineare è una combinazione dei predittori, ognuno moltiplicato per un parametro, e si collega alla media della risposta attraverso una funzione di collegamento.

3.  **Funzione di Collegamento:** La funzione di collegamento ($g(\mu)$) stabilisce il collegamento tra il predittore lineare e la media della risposta.
    Trasforma la scala della variabile di risposta e assicura che il predittore lineare copra l'intera linea reale.
    Le funzioni di collegamento comuni includono logit, probit e identità.

La forma generale di un GLM può essere rappresentata come segue:

$$ g(\mu) = X\beta $$

Dove:

-   $g(\mu)$ è la funzione di collegamento.
-   $\mu$ è il valore atteso della variabile di risposta.
-   $X$ è la matrice dei predittori.
-   $\beta$ è il vettore dei coefficienti.

**Esempi:**

1.  **Regressione Logistica Binaria:**

    -   **Distribuzione:** Binomiale
    -   **Funzione di Collegamento:** Logit (log-rapporti di probabilità)
    -   **Equazione:** $\text{logit}(\mu) = X\beta$

    **Descrizione:** La funzione di collegamento logit trasforma la probabilità di successo ($\mu$) in un predittore lineare.
    In questo caso, il modello logistic descrive come la log-odds della probabilità di successo sia lineare rispetto ai predittori.

2.  **Regressione di Poisson:**

    -   **Distribuzione:** Poisson
    -   **Funzione di Collegamento:** Log
    -   **Equazione:** $\log(\mu) = X\beta$

    **Descrizione:** Con la funzione di collegamento logaritmico, il modello di Poisson può gestire dati di conteggio, poiché connette il logaritmo naturale del valore atteso ($\mu$) a un predittore lineare.

3.  **Regressione Gamma:**

    -   **Distribuzione:** Gamma
    -   **Funzione di Collegamento:** Inverso
    -   **Equazione:** $\frac{1}{\mu} = X\beta$

    **Descrizione:** La funzione di collegamento inversa in un modello gamma è appropriata quando si modellano variabili con distribuzioni a coda pesante.
    Collega l'inverso del valore atteso ($\mu$) a un predittore lineare.

### Devianza

La devianza è una misura della discrepanza tra il modello statistico e i dati osservati nei GLM.
In generale, la devianza è utilizzata per confrontare modelli alternativi e valutare quanto bene un modello si adatta ai dati.
Nel contesto dei GLM, la devianza è particolarmente significativa perché tiene conto delle specifiche distribuzioni delle variabili di risposta.

La devianza si calcola confrontando il modello fitted (previsto) con un modello null, spesso noto come modello null di saturazione.
Il modello null rappresenta l'ipotesi che tutti i parametri del modello siano uguali a zero, indicando l'assenza di effetti predittori.
La devianza è data dalla seguente formula:

$$ D = 2 \times \left( \ell(\hat{\beta}) - \ell(\beta_0) \right) $$

Dove:

-   $\ell(\hat{\beta})$ è il log-likelihood del modello fitted.
-   $\ell(\beta_0)$ è il log-likelihood del modello null.
-   $D$ è la devianza.

Poiché i GLM utilizzano la famiglia esponenziale di distribuzioni, la devianza assume una forma specifica per diverse distribuzioni.

**Formule della Verosimiglianza:**

1.  **Modello Normale:** La verosimiglianza nel caso di una distribuzione normale è definita dalla densità di probabilità della distribuzione normale.
    Per una singola osservazione, la formula è: $$ L(y_i | \mu_i, \sigma^2) = \frac{1}{\sqrt{2\pi\sigma^2}} \exp\left(-\frac{(y_i - \mu_i)^2}{2\sigma^2}\right) $$

    Dove:

    -   $y_i$ è l'osservazione i-esima.
    -   $\mu_i$ è il valore atteso della variabile di risposta i-esima.
    -   $\sigma^2$ è la varianza.

2.  **Modello di Poisson:** La verosimiglianza nel caso di una distribuzione di Poisson è definita come segue: $$ L(y_i | \lambda_i) = \frac{\lambda_i^{y_i} \exp(-\lambda_i)}{y_i!} $$

    Dove:

    -   $y_i$ è l'osservazione i-esima.
    -   $\lambda_i$ è il valore atteso della variabile di risposta i-esima.

La devianza può essere interpretata come una misura della discrepanza tra il modello fitted e il modello null.
Un valore di devianza più basso indica una migliore adattabilità del modello ai dati.
Tuttavia, poiché la devianza è una misura assoluta, è spesso utilizzato il concetto di devianza residua, che è la devianza divisa per il numero di gradi di libertà del modello.
Questo consente un confronto più equo tra modelli con differenti complessità.

Nel contesto dei GLM, la devianza è spesso scomposta in tre componenti principali:

1.  **Modello Fitted Deviance (**$D_{\text{fitted}}$): Misura la discrepanza tra il modello fitted e i dati osservati.

2.  **Null Deviance (**$D_{\text{null}}$): Misura la discrepanza tra il modello null e i dati osservati.

3.  **Residual Deviance (**$D_{\text{residual}}$): Rappresenta la devianza residua, cioè la discrepanza non spiegata dal modello fitted.

L'utilizzo di queste componenti permette di comprendere come la devianza è distribuita tra il modello fitted, il modello null e la devianza residua.

Il test di devianza è spesso utilizzato per confrontare modelli alternativi.
La differenza nella devianza tra due modelli segue approssimativamente una distribuzione chi-quadro sotto l'ipotesi nulla che i due modelli siano equivalenti.
Questo test può essere utilizzato per valutare l'aggiunta di predittori al modello o per confrontare modelli con differenti specifiche di distribuzione della risposta.

**Esempio di Devianza:**

```{r}
# Carichiamo un dataset di esempio in R
data(mtcars)

# Creiamo un modello di Poisson
model_poisson <- glm(vs ~ wt + hp, family = poisson, data = mtcars)

# Calcoliamo la devianza
deviance_value <- deviance(model_poisson)

cat("Devianza del Modello di Poisson:", deviance_value, "\n")

```

In questo esempio, calcoliamo e visualizziamo la devianza residua di un modello di Poisson.

### Residui

Nei GLM, i residui svolgono un ruolo cruciale nel valutare l'adattamento del modello ai dati e nel verificare la validità delle ipotesi dietro il modello.
A differenza dei Modelli Lineari (LM), i residui nei GLM sono calcolati considerando la distribuzione della risposta specifica del modello.

1.  **Misurare la Bontà di Adattamento:**
    -   I residui nei GLM sono utilizzati per valutare la bontà di adattamento del modello. Se il modello si adatta bene ai dati, ci si aspetta che i residui abbiano una distribuzione che riflette la distribuzione della risposta specificata nel GLM.
2.  **Indicazioni sulla Struttura dei Dati:**
    -   Nei GLM, la scelta della distribuzione della risposta e della funzione di legame può variare in base alla natura dei dati. I residui forniscono indicazioni sulla struttura dei dati e sulla validità delle ipotesi del modello.
3.  **Diagnosticare Devianza:**
    -   La devianza, una misura della differenza tra il modello completo e uno più semplice, può essere diagnosticata attraverso i residui. Residui devianti e standardized deviance residuals sono spesso utilizzati per individuare modelli non adatti ai dati.

Le principali differenze tra i residui nei GLM e nei LM riguardano la distribuzione della risposta e la funzione di legame.

1.  **Distribuzione della Risposta:**
    -   Nei GLM, i residui sono calcolati tenendo conto della distribuzione della risposta specificata nel modello. Ad esempio, nei modelli di Poisson, i residui devono adattarsi alla distribuzione di Poisson.
    -   Nei LM, i residui sono basati sull'assunzione che la risposta sia distribuita normalmente.
2.  **Funzione di Legame:**
    -   La funzione di legame nei GLM determina come il valore atteso della risposta è collegato alla combinazione lineare dei predittori. La scelta della funzione di legame influenza i residui.
    -   Nei LM, la funzione di legame è identità, e i residui riflettono semplicemente la differenza tra i valori osservati e quelli previsti.

**Esempio di Calcolo dei Residui in un Modello GLM:**

```{r}
suppressWarnings({
# Carichiamo un dataset di esempio in R con una distribuzione di Poisson
data(faithful, package = "datasets")

# Creiamo un modello di Poisson
modello_poisson <- glm(eruptions ~ waiting, family = poisson, data = faithful)

# Calcoliamo i residui devianti
residui_devianti <- residuals(modello_poisson, type = "deviance")

# Visualizziamo i primi 10 residui devianti
head(residui_devianti)
})
```

I residui devianti riflettono le differenze tra i valori osservati e quelli previsti in termini della devianza del modello.
Un residuo deviante elevato indica che l'osservazione contribuisce in modo significativo alla devianza complessiva del modello, indicando un'eventuale influenza o deviazione dal modello.

-   Residui positivi indicano che l'osservazione ha contribuito più del previsto alla devianza.
-   Residui negativi indicano che l'osservazione ha contribuito meno del previsto alla devianza.
-   Residui pari a zero indicano una perfetta adattabilità dell'osservazione al modello.

**Esempio:**

Per questo esempio, useremo il dataset di esempio "mtcars" di R per creare un modello di Poisson utilizzando un modello generalizzato lineare (GLM).
Lo scopo del modello sarà prevedere il numero di cilindri ("cyl") in base alle altre variabili presenti nel dataset.

```{r}
# Caricamento del dataset "mtcars"
data(mtcars)

# Esploriamo le prime righe del dataset
head(mtcars)

# Creiamo un modello di Poisson per prevedere il numero di cilindri in base alle altre variabili
modello_glm <- glm(cyl ~ mpg + disp + hp + drat + wt + qsec + vs + am + gear + carb, 
                   data = mtcars, family = poisson)

# Visualizziamo il summary del modello
summary(modello_glm)

# Analizziamo le variabili indipendenti
par(mfrow = c(2, 2))
plot(modello_glm)

# Eseguiamo l'analisi della varianza (ANOVA)
anova_result <- anova(modello_glm, test = "Chi")

# Visualizziamo la tabella ANOVA
print(anova_result)

# Calcoliamo l'R-squared del modello
r_squared <- 1 - (modello_glm$deviance / modello_glm$null.deviance)
cat("R-squared:", r_squared, "\n")

# Effettuiamo previsioni su nuovi dati (per esempio, le prime 5 osservazioni del dataset)
nuovi_dati <- mtcars[1:5, ]
previsioni <- predict(modello_glm, newdata = nuovi_dati, type = "response")
cat("Previsioni per le prime 5 osservazioni:\n", previsioni, "\n")
```

In questo esempio, abbiamo creato un modello di Poisson utilizzando il numero di cilindri come variabile dipendente e le altre variabili del dataset "mtcars" come variabili indipendenti.
Successivamente, abbiamo eseguito un'analisi completa del modello, compresi il summary, la visualizzazione delle variabili indipendenti, l'analisi della varianza (ANOVA), il calcolo dell'R-squared e la previsione su nuovi dati.

[[Torna all' [Indice]]]
